python爬虫
strmat
这个作者很懒,什么都没留下…
展开
-
爬虫学习(一)
爬虫学习(一)1.1 学习get与post请求1.2 尝试用requests发送get请求1.3 申请返回的状态码1.4 请求头2.1 正则表达式2.2 豆瓣top250爬取实战3 遇到的问题参考资料 1.1 学习get与post请求 get 和 post是HTTP中请求数据的方法: GET 请求指定的页面信息,并返回实体主体; POST 向指定资源提交数据进行处理请求(例如提交表单或者上传文件)...原创 2019-04-07 12:31:27 · 270 阅读 · 0 评论 -
爬虫学习(三)
爬虫学习(三)1.任务2.selenium2.1 Selenium安装与学习2.2 Selenium模拟登陆3. IP和代理池3.1 IP和封IP3.2 代理池构建4.参考资料 1.任务 安装selenium并学习; 使用selenium模拟登陆163邮箱; 学习什么是IP,为什么会出现IP被封,如何应对IP被封的问题。 抓取西刺代理,并构建自己的代理池 2.selenium 2.1 Sele...原创 2019-04-11 19:18:56 · 158 阅读 · 0 评论 -
爬虫学习(二)
爬虫学习(二)1. beautifulsoup2. xpath 任务: 提取丁香园论坛的回复内容 1. beautifulsoup 基础语法: 参考文档 代码: import urllib.request from bs4 import BeautifulSoup as bs def main(): headers = {‘User-Agent’: ‘Mozilla/5.0 (Windows; ...原创 2019-04-09 11:18:47 · 141 阅读 · 0 评论 -
爬虫学习(四)
爬虫学习(四)1.任务2.实现3.结果 1.任务 模拟登录丁香园,并抓取论坛页面所有的人员基本信息与回复帖子内容 http://www.dxy.cn/bbs/thread/626626#626626 2.实现 思路: 1.selenium模拟浏览器登陆 2.xpath匹配获取内容存储数据 代码: import time from selenium import webdriver from se...原创 2019-04-13 18:50:14 · 151 阅读 · 0 评论