爬虫
Spider_man_
这个作者很懒,什么都没留下…
展开
-
爬虫(十):正则表达式
正则表达式: 就是事先定义好一些特殊字符,及特定字符的组合,组成一个“规则字符串”,这个规则字符串用来表达对字符串的一个过滤逻辑 |字符| 含义 | ...原创 2019-01-22 10:36:17 · 135 阅读 · 0 评论 -
爬虫基础(二)简单图片下载
https://www.jianshu.com/p/461d74641e80(Scrapy爬虫入门教程)) 爬虫: 就是模拟客户端发送网络请求,接受请求响应,一种按照一定的规则,自动的抓取互联网信息的程序(可以用来网上投票,短信轰炸) Robots协议就是每个网站对于来到的爬虫所提出的要求。(并非强制要求遵守的协议,只是一种建议,但是如果不遵守有可能会承担法律责任。) 每个网站的Robots协...原创 2018-12-01 21:59:17 · 250 阅读 · 0 评论 -
爬虫(四):简单爬取贴吧
#coding=utf-8 import requests class TiebaSpider(): ''' 爬取贴吧 ''' def __init__(self,tiebaname): self.tiebaname=tiebaname self.init_url="https://tieba.baidu.com/f?kw="+ti...原创 2019-03-30 22:13:36 · 229 阅读 · 0 评论 -
爬虫基础(三):Requsests模块发送post请求(附,翻译字典例子[request和requests的区别])
那些地方用到post请求 登录注册(post比get更安全) 需要传大文本内容的时候(post请求对数据长度没有要求) 发送post请求的用法 response=requests.post(‘http://wwww.baidu.com’,data=data,headers=headers) data的形式:字典 import requests import time import random...转载 2018-12-02 23:45:05 · 1287 阅读 · 0 评论 -
爬虫(五):requests模块使用代理
使用方法: requests.get(‘http://www.baidu.com’,proxies=proxies) proxies的形式为字典 proxies={ “http”:“http://12,34,56,78:8080” 或者: “https”:“https://12,34,56,78:8080” } 为什么使用代理 - 让服务器以为不是同一个客户端请求 - 防止真实地址泄露 例子...原创 2018-12-04 09:55:19 · 909 阅读 · 0 评论 -
爬虫(六):requests模拟登陆的三种方式(cookie,session)
cookie保存在浏览器中,很多浏览器限制一个站点最多保存20个cookie session存在服务器中。 爬虫cookie和session 1.带上cookie和session的好处 能够请求到登陆后的页面 2,弊端 一套cookie和session往往对应一个用户,请求太快,请求次数太多,容易被识别为爬虫 不需要cookie的时候尽量不去使用cookie 但是有时为了获取登陆的页面,必须发送带...原创 2018-12-04 12:06:02 · 3492 阅读 · 0 评论 -
爬虫(七):Requests小技巧以及定位浏览器中的js位置
1.requests.utils.dict_from_cookiejjar 把cookie对象转为字典 2.请求ssl证书验证 response=requests.get(‘https://www.12306.cn/mormweb/’,verify=False) 3.设置超时 response=requests.get(url,timeout=10) 4,配合状态码判断是否请求成功 assert ...原创 2018-12-05 10:46:17 · 2021 阅读 · 0 评论 -
爬虫(八):restry用于如果操作失败则需要多次重试某些操作
https://blog.csdn.net/ricky110/article/details/77727397 http://www.cnblogs.com/c-x-a/p/9774698.html (各个参数的含义) 经常遇到一个场景,就是如果操作失败则需要多次重试某些操作,这种情况下,如果想优雅的实现功能,又不关心重试逻辑,则可以学习该模块 import requests fro...原创 2018-12-05 11:17:45 · 448 阅读 · 0 评论 -
爬虫(十一):beautifulsoup
Beautifulsoup 灵活方便的网页解析库,处理高效,支持多种解析器,利用它不用编写正则表达式即可方便的首先网页的信息提取 标签选择器 from bs4 import BeautifulSoup import requests def run(): headers={"User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWeb...原创 2019-03-30 21:36:10 · 275 阅读 · 0 评论 -
爬虫(十二):pyquery库的使用
https://www.cnblogs.com/lei0213/p/7676254.html 详解 attr() 方法设置或返回被选元素的属性值。 例如: #coding=utf-8 from pyquery import PyQuery as pq html_str='<div class="nn"><ul href="www.baidu.com"><li ...原创 2019-03-30 21:35:24 · 306 阅读 · 0 评论 -
爬虫(十三):selenium详解
selenium:自动化测试工具,支持多种浏览器,解决js渲染问题 https://www.cnblogs.com/Snail-offort/p/8761652.html selenium 的核心组件叫做 Selenium-RC(Remote Control),简单来说它是一个代理服务器,浏览器启动时通过将它设置为代理,它可以修改请求响应报文并向其中注入 Javascript,通过注入的 JS 可...原创 2019-03-30 21:34:25 · 245 阅读 · 0 评论 -
爬虫(一)
str类型:unicode的呈现形式 bytes:互联网上数据都是以二进制方式传输的 http:超文本传输协议,默认80端口 https:http+ssl(安全套接字层)默认端口号:443 https比http更安全,但性能更低 url的形式 形式:scheme://host[:port#]/path/…/[?query-string][#anchor] scheme:协议(例如http,htt...原创 2018-12-01 10:32:30 · 202 阅读 · 0 评论
分享