网络爬虫
⒐o年華
这个作者很懒,什么都没留下…
展开
-
BeautifulSoup煲汤
1、pip install beautifulsoup4 解析html文件: import requests from bs4 import BeautifulSoup # 获取网页源代码,也可以右键实现查询源代码 r = requests.get("http://python123.io/ws/demo.html") demo = r.text soup = BeautifulSoup(d...原创 2020-03-06 09:37:35 · 117 阅读 · 0 评论 -
初识Python网络爬虫
1、安装requests库:pip install requests 2、初始网络爬虫命令 import requests # 获取网页信息 r = requests.get("http://www.baidu.com") # 状态码信息 print(r.status_code) print(type(r)) print(r.headers) # 返回内容 print(r.text) #...原创 2020-03-04 13:56:45 · 119 阅读 · 0 评论 -
网络爬虫引发的问题及robots协议说明
1、骚扰问题 网络爬虫会占用网站服务器资源。 2、法律风险 根据robots协议网页里的某些信息是不能被爬取的,否则将产生法律风险。 3、隐私泄露 网络爬虫可以获得用户设置的密码信息,这样个人隐私就存在被泄露的风险。 总结: 在进行网络爬虫时,我们有必要了解网站的robots协议,如: https://www.jd.com/robots.txt 上图中* 表示对所有的访问者。...原创 2020-03-05 17:43:45 · 729 阅读 · 0 评论