![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
海边看花开
越努力越幸福
展开
-
使用urllib模拟登录人人网
登录人人网获取cookie,粘贴出来就可以废话不多说具体代码如下from urllib import requesturl ="http://www.renren.com/967952300/profile"headers ={"User-Agent":"Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTM...原创 2018-11-12 23:19:49 · 303 阅读 · 0 评论 -
python3抓取糗事百科
使用requests和re模块抓取糗事百科# -*- coding:utf-8 -*-import requestsimport reclass Qiushi_Spider(object): def __init__(self): self.url = "https://www.qiushibaike.com/text/page/{}/" self...原创 2019-04-08 21:04:30 · 99 阅读 · 0 评论 -
pyhton使用正则抓取古诗文
正则表达式爬取古诗文# -*- coding:utf-8 -*-import requestsimport reclass Gushiwen_Spider(object): def __init__(self): self.url = "https://www.gushiwen.org/default_{}.aspx" self.headers...原创 2019-04-08 00:34:22 · 243 阅读 · 0 评论 -
使用xpath爬取腾讯招聘python岗位信息
使用xpath爬取腾讯招聘招聘数据# -*- coding:utf-8 -*-import requestsfrom lxml import etreeclass Tencent(object): def __init__(self): self.base_url = "https://hr.tencent.com/position.php?keywords=py...原创 2019-04-06 21:43:17 · 1228 阅读 · 0 评论 -
urllib3
在使用urllib3抓取某个药智时,出现下面错误urllib.error.URLError: <urlopen error [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed: unable to get local issuer certificate (_ssl.c:1045)>解决办法:两种处理办法取消证书...原创 2019-03-08 21:56:26 · 472 阅读 · 0 评论 -
使用lxml来爬取某地区豆瓣正在上映的电影
具体代码如下# print(etree.tostring(html,encoding="utf-8").decode("utf-8"))lis = ul.xpath("./li[@class='list-item']")movies = []for li in lis: # print(etree.tostring(li,encoding="utf-8").decode("utf...原创 2018-11-21 22:43:15 · 380 阅读 · 0 评论 -
request请求方法使用content和text的区别
import requestresp = request.get("http://www.baidu.com")resp.text // 返回的是一个经过解码后的字符串,是unicode类型resp.content // 返回的是一个原生字符串,是bytes类型...原创 2018-11-21 21:31:20 · 6990 阅读 · 0 评论 -
使用urllib保存cookie至本地
废话不多说,直接上代码,保存的cookie的位置和名字可以在MozillaCookieJar()这里传入参数,也可以在cookiejar.save()传入from urllib import requestfrom http.cookiejar import MozillaCookieJarcookiejar = MozillaCookieJar("cookie.txt") han...原创 2018-11-15 23:44:05 · 354 阅读 · 0 评论 -
定时爬虫制作
1 环境配置安装: apt-get install cron(服务器环境下默认安装的有)使用: crontab -e 进入编辑页面(第一次会让选择编辑器)crontab - l 查看当前的定时任务编辑:分 小时 日 月 星期 命令0-59 0-23 1-31 1-31 0-6 co...原创 2018-11-05 22:27:13 · 135 阅读 · 0 评论 -
使用selenium抓取boss直聘
# -*- coding:utf-8 -*-from selenium import webdriverfrom lxml import etreeimport timeclass BossSpider(object): def __init__(self): self.start_url = 'https://www.zhipin.com/job_detail...原创 2019-04-22 21:09:37 · 638 阅读 · 0 评论