2021-01-24

最新推荐文章于 2023-12-18 11:02:59 发布

欧阳源

最新推荐文章于 2023-12-18 11:02:59 发布

阅读量105

点赞数

分类专栏：笔记

本文链接：https://blog.csdn.net/m0_47629832/article/details/113072777

版权

笔记专栏收录该内容

2 篇文章 0 订阅

订阅专栏

1.数据挖掘
2.数据清洗
3.数据可视化
首先，准备好相关库
requests、pandas、BeautifulSoup、matplotlib等

因为这是第三方库，所以我们需要额外下载
下载有两种方法（以requests为例，其余库的安装方法类似）：

（一）在命令行输入
前提：装了pip（ Python 包管理工具,提供了对Python 包的查找、下载、安装、卸载的功能。）

pip install requests

（二）通过PyCharm下载
第一步：编译器左上角File–>Settings…
image.png
第二步：找到Project Interpreter 点击右上角加号按钮，弹出界面上方搜索库名：requests，点击左下角Install ，当提示successfully时，即安装完成。
1.pip包管理
(1)内置库
包/库：别人写好的代码，直接引用，加快开发效率。
内置包：python解释器内置常用功能库。
– 解释器安装目录/Lib文件夹下， os time urllib等
– 文件夹里有__init__.py 就成了一个包。

…
import urllib
from urllib import request
response = request.urlopen(‘http://baidu.com’)
…
(2)关于HTTP模拟和HTML源代码解析
python时代： urllib urllib2
由第三方程序员做了一个新http请求库，比官方更方便，urllib3
又有一个程序员，在urllib3基础上进一步封装和优化，requests
python3时代内置库统一为urllib
结论：建议直接使用requests

(3)第三方库
pypi.org 上丰富的各种功能的库

①pip包管理工具
在服务器上没有图形界面的浏览器.开发语言第三方库往往用命令行包管理工具
解释器/script/pip.exe

pip -V # 看Pip版本
pip search requests #搜索包信息
pip install requests #安装第三方库
pip uninstall requests #卸载
pip list #展示所有已经安装过的库
pip freeze > requirements.txt #把项目用到的库信息导出到一个文件中

第三方库安装的位置：解释器目录\lib\site-packages\

②换源
软件源source: 清单里维护了上万的某某软件-> 某某url下载库下载地址关系，但官方pypi.org下载速度慢，国内一些大学、大公司同步镜像
方法一：临时换源
‘pip install requests -i http://simply.aliyun.com/simply/’
方法二：永久换
系统用户文件夹下新建.pip文件夹和pip.conf文件，写入配置

方式三（推荐）：pycharm设置里面配settings/interpreter/+号/manage repositories/+号复制源（推荐阿里云）

参考[pip换源]（https://www.cnblogs.com/believepd/p/10499844.html）
豆瓣 https://pypi.doubanio.com/simple/
阿里云 https://mirrors.aliyun.com/pypi/simple/
清华大学 https://pypi.tuna.tsinghua.edu.cn/simple/
debug模式
debug模式也就是调试运行模式
具体操作过程可以分为三步：
1.打断点
2.以debug运行
3.F8向下执行单步，观察变量值

import requests

response = requests.get(url=‘https://baidu.com’, )

状态码

status_code = response.status_code
if status_code == 200:
# 网页数据 bytes
content = response.content
# 网页数据str 一般直接取得text属性，但少数情况解码错误出现乱码
text = response.text
text = content.decode(‘utf-8’)
print(text)
url = response.url
headers = response.headers

for i in range(10):
print(i)
j = i
j+=1
print(1)
#所涉及到的是requests和openpyxl数据的存储和数据的清洗以及统计然后就是matplotlib进行数据的可视化

#静态数据点击element中点击发现在html中，服务器已经渲染好的内容，直接发给浏览器，浏览器解释执行，

#动态数据：如果点击下一页。我们的地址栏(加后缀但是前面的地址栏没变也算)(也可以点击2和3页)没有发生任何变化说明是动态数据，说明我们的数据是后来被渲染到html中的。他的数据根本不在html中的。

#动态查看network然后用的url是network里面的headers

#安装第三方模块输入cmd之后pip install 加名字例如requests

import requests

import re

import time

import json

import openpyxl #用于操作 excel文件的

headers= {‘user-agent’:‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Safari/537.36’}#创建头部信息

def get_comments(productId,page):

url= “https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId={0}&score=0&sortType=5&page={1}&pageSize=10&isShadowSku=0&fold=1”.format(productId,page)

resp= requests.get(url, headers=headers)

s=resp.text.replace(‘fetchJSON_comment98(’,’’)#进行替换操作。获取到所需要的相应的json，也就是去掉前后没用的东西

s=s.replace(’);’,’’)

json_data=json.loads(s)#进行数据json转换returnjson_data

#获取最大页数

def get_max_page(productId):

dis_data=get_comments(productId,0)#调用刚才写的函数进行向服务器的访问请求，获取字典数据return dis_data[‘maxPage’]#获取他的最大页数。每一页都有最大页数

#进行数据提取

def get_info(productId):

max_page=get_max_page(productId)

lst=[]#用于存储提取到的商品数据for page in range(1,max_page+1):

#获取没页的商品评论

comments=get_comments(productId,page)

comm_list=comments[‘comments’]#根据comnents获取到评论的列表(每页有10条评论)

#遍历评论列表，获取其中的相应的数据for item incomm_list:

#每条评论分别是一字典。在继续通过key来获取值

content=item[‘content’]

color=item[‘productColor’]

size=item[‘productSize’]

lst.append([content,color,size])#将每条评论添加到列表当中

time.sleep(3)#防止被京东封ip进行一个时间延迟。防止访问次数太频繁

save(lst)

def save(lst):

#把爬取到的数据进行存储,保存到excel中

wk=openpyxl.Workbook()#用于创建工作簿对象

sheet=wk.active #获取活动表(一个工作簿有三个表)

#遍历列表将数据添加到excel中。列表中的一条数据在表中是一行

biaotou=‘评论’,‘颜色’,'大小’sheet.append(biaotou)for item inlst:

sheet.append(item)

#将excel保存到磁盘上

wk.save(‘销售数据.xlsx’)if name==‘main’:

productId='66749071789’get_info(productId)

print(“ok”)

欧阳源

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
2021-01-24

#所涉及到的是requests和openpyxl数据的存储和数据的清洗以及统计然后就是matplotlib进行数据的可视化#静态数据点击element中点击发现在html中，服务器已经渲染好的内容，直接发给浏览器，浏览器解释执行，#动态数据：如果点击下一页。我们的地址栏(加后缀但是前面的地址栏没变也算)(也可以点击2和3页)没有发生任何变化说明是动态数据，说明我们的数据是后来被渲染到html中的。他的数据根本不在html中的。#动态查看network然后用的url是network里面的headers
复制链接

扫一扫