![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
Spider_man_
这个作者很懒,什么都没留下…
展开
-
爬虫(十):正则表达式
正则表达式:就是事先定义好一些特殊字符,及特定字符的组合,组成一个“规则字符串”,这个规则字符串用来表达对字符串的一个过滤逻辑|字符| 含义 |...原创 2019-01-22 10:36:17 · 111 阅读 · 0 评论 -
爬虫基础(二)简单图片下载
https://www.jianshu.com/p/461d74641e80(Scrapy爬虫入门教程))爬虫:就是模拟客户端发送网络请求,接受请求响应,一种按照一定的规则,自动的抓取互联网信息的程序(可以用来网上投票,短信轰炸) Robots协议就是每个网站对于来到的爬虫所提出的要求。(并非强制要求遵守的协议,只是一种建议,但是如果不遵守有可能会承担法律责任。) 每个网站的Robots协...原创 2018-12-01 21:59:17 · 218 阅读 · 0 评论 -
爬虫(四):简单爬取贴吧
#coding=utf-8import requestsclass TiebaSpider(): ''' 爬取贴吧 ''' def __init__(self,tiebaname): self.tiebaname=tiebaname self.init_url="https://tieba.baidu.com/f?kw="+ti...原创 2019-03-30 22:13:36 · 202 阅读 · 0 评论 -
爬虫基础(三):Requsests模块发送post请求(附,翻译字典例子[request和requests的区别])
那些地方用到post请求登录注册(post比get更安全)需要传大文本内容的时候(post请求对数据长度没有要求)发送post请求的用法response=requests.post(‘http://wwww.baidu.com’,data=data,headers=headers)data的形式:字典import requestsimport timeimport random...转载 2018-12-02 23:45:05 · 1233 阅读 · 0 评论 -
爬虫(五):requests模块使用代理
使用方法:requests.get(‘http://www.baidu.com’,proxies=proxies)proxies的形式为字典proxies={“http”:“http://12,34,56,78:8080”或者:“https”:“https://12,34,56,78:8080”}为什么使用代理- 让服务器以为不是同一个客户端请求- 防止真实地址泄露例子...原创 2018-12-04 09:55:19 · 856 阅读 · 0 评论 -
爬虫(六):requests模拟登陆的三种方式(cookie,session)
cookie保存在浏览器中,很多浏览器限制一个站点最多保存20个cookiesession存在服务器中。爬虫cookie和session1.带上cookie和session的好处能够请求到登陆后的页面2,弊端一套cookie和session往往对应一个用户,请求太快,请求次数太多,容易被识别为爬虫不需要cookie的时候尽量不去使用cookie但是有时为了获取登陆的页面,必须发送带...原创 2018-12-04 12:06:02 · 3372 阅读 · 0 评论 -
爬虫(七):Requests小技巧以及定位浏览器中的js位置
1.requests.utils.dict_from_cookiejjar 把cookie对象转为字典2.请求ssl证书验证response=requests.get(‘https://www.12306.cn/mormweb/’,verify=False)3.设置超时response=requests.get(url,timeout=10)4,配合状态码判断是否请求成功assert ...原创 2018-12-05 10:46:17 · 1932 阅读 · 0 评论 -
爬虫(八):restry用于如果操作失败则需要多次重试某些操作
https://blog.csdn.net/ricky110/article/details/77727397http://www.cnblogs.com/c-x-a/p/9774698.html (各个参数的含义)经常遇到一个场景,就是如果操作失败则需要多次重试某些操作,这种情况下,如果想优雅的实现功能,又不关心重试逻辑,则可以学习该模块import requestsfro...原创 2018-12-05 11:17:45 · 410 阅读 · 0 评论 -
爬虫(十一):beautifulsoup
Beautifulsoup灵活方便的网页解析库,处理高效,支持多种解析器,利用它不用编写正则表达式即可方便的首先网页的信息提取标签选择器from bs4 import BeautifulSoupimport requestsdef run(): headers={"User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWeb...原创 2019-03-30 21:36:10 · 247 阅读 · 0 评论 -
爬虫(十二):pyquery库的使用
https://www.cnblogs.com/lei0213/p/7676254.html 详解attr() 方法设置或返回被选元素的属性值。例如:#coding=utf-8from pyquery import PyQuery as pqhtml_str='<div class="nn"><ul href="www.baidu.com"><li ...原创 2019-03-30 21:35:24 · 269 阅读 · 0 评论 -
爬虫(十三):selenium详解
selenium:自动化测试工具,支持多种浏览器,解决js渲染问题https://www.cnblogs.com/Snail-offort/p/8761652.htmlselenium 的核心组件叫做 Selenium-RC(Remote Control),简单来说它是一个代理服务器,浏览器启动时通过将它设置为代理,它可以修改请求响应报文并向其中注入 Javascript,通过注入的 JS 可...原创 2019-03-30 21:34:25 · 214 阅读 · 0 评论 -
爬虫(一)
str类型:unicode的呈现形式bytes:互联网上数据都是以二进制方式传输的http:超文本传输协议,默认80端口https:http+ssl(安全套接字层)默认端口号:443https比http更安全,但性能更低url的形式形式:scheme://host[:port#]/path/…/[?query-string][#anchor]scheme:协议(例如http,htt...原创 2018-12-01 10:32:30 · 176 阅读 · 0 评论