![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
组队学习
Qinchuyan_2019
这个作者很懒,什么都没留下…
展开
-
Datawhale|第八期 爬虫2
任务预览 学习beautifulsoup,并使用beautifulsoup提取内容;使用beautifulsoup提取丁香园论坛的回复内容。(丁香园:http://www.dxy.cn/bbs/thread/626626#626626 ) 学习xpath,使用lxml+xpath提取内容;使用xpath提取丁香园论坛的回复内容。(http://www.dxy.cn/bbs/thread/62662...原创 2019-08-08 20:52:46 · 151 阅读 · 0 评论 -
Datawhale|第八期 爬虫1
任务预览 1.学习get与post请求,尝试使用requests或者是urllib用get方法向https://www.baidu.com/发出一个请求,并将其返回结果输出。 2.如果是断开了网络,再发出申请,结果又是什么。了解申请返回的状态码。 3.了解什么是请求头,如何添加请求头。 4.学习什么是正则表达式并尝试一些正则表达式并进行匹配。 5.结合requests、re两者的内容爬取https...原创 2019-08-06 20:14:37 · 93 阅读 · 0 评论 -
Datawhale|第八期 爬虫3
任务预览 1.安装selenium并学习,使用selenium模拟登陆163邮箱。(163邮箱:https://mail.163.com) 2.学习IP相关知识: 1)学习什么是IP,为什么会出现IP被封,如何应对IP被封的问题。 2) 抓取西刺代理,并构建自己的代理池。(西刺:https://blog.csdn.net/weixin_43720396/article/details/882182...原创 2019-08-10 20:35:58 · 90 阅读 · 0 评论 -
Datawhale|第八期 爬虫4
任务预览 模拟登录丁香园,并抓取论坛页面所有的人员基本信息与回复帖子内容。(丁香园:http://www.dxy.cn/bbs/thread/626626#626626 ) 代码: # -*- coding:utf-8 -*- import requests, json, re, random,time from bs4 import BeautifulSoup from selenium imp...原创 2019-08-12 20:49:04 · 139 阅读 · 0 评论