python爬虫
strmat
这个作者很懒,什么都没留下…
展开
-
爬虫学习(一)
爬虫学习(一)1.1 学习get与post请求1.2 尝试用requests发送get请求1.3 申请返回的状态码1.4 请求头2.1 正则表达式2.2 豆瓣top250爬取实战3 遇到的问题参考资料1.1 学习get与post请求get 和 post是HTTP中请求数据的方法:GET 请求指定的页面信息,并返回实体主体;POST 向指定资源提交数据进行处理请求(例如提交表单或者上传文件)...原创 2019-04-07 12:31:27 · 259 阅读 · 0 评论 -
爬虫学习(三)
爬虫学习(三)1.任务2.selenium2.1 Selenium安装与学习2.2 Selenium模拟登陆3. IP和代理池3.1 IP和封IP3.2 代理池构建4.参考资料1.任务安装selenium并学习;使用selenium模拟登陆163邮箱;学习什么是IP,为什么会出现IP被封,如何应对IP被封的问题。抓取西刺代理,并构建自己的代理池2.selenium2.1 Sele...原创 2019-04-11 19:18:56 · 152 阅读 · 0 评论 -
爬虫学习(二)
爬虫学习(二)1. beautifulsoup2. xpath任务:提取丁香园论坛的回复内容1. beautifulsoup基础语法:参考文档代码:import urllib.requestfrom bs4 import BeautifulSoup as bsdef main():headers = {‘User-Agent’: ‘Mozilla/5.0 (Windows; ...原创 2019-04-09 11:18:47 · 134 阅读 · 0 评论 -
爬虫学习(四)
爬虫学习(四)1.任务2.实现3.结果1.任务模拟登录丁香园,并抓取论坛页面所有的人员基本信息与回复帖子内容http://www.dxy.cn/bbs/thread/626626#6266262.实现思路:1.selenium模拟浏览器登陆2.xpath匹配获取内容存储数据代码:import timefrom selenium import webdriverfrom se...原创 2019-04-13 18:50:14 · 144 阅读 · 0 评论