爬虫
Peace & Love
https://github.com/584807419
展开
-
python 图片、文件 通过 request header 多线程下载
写爬虫过程中发现图片下载比较慢,遂使用多线程下载来提速import threadingimport requestsclass MulThreadDownload(threading.Thread): def __init__(self, url, startpos, endpos, temp_dict, headers, proxies): super(MulT...原创 2020-02-20 14:47:36 · 2981 阅读 · 0 评论 -
selenium webdriver chrome 获取 文件 下载 链接 (js生成的链接,点击事件发送请求并弹窗的那种)
import jsonfrom selenium import webdriverfrom selenium.webdriver.chrome.options import Optionsfrom selenium.webdriver.common.desired_capabilities import DesiredCapabilitieschrome_options = Option...原创 2019-11-12 23:04:22 · 3324 阅读 · 0 评论 -
爬虫 headless 访问 知道创宇 加速乐 CDN 网站
通过 requests.get 直接请求网站首页,返回 521 错误提示码,返回结果是js代码。这是采用加速乐反爬技术,在访问前先判断客户端的cookie是否正确,如果不正确,返回521状态码和一段js代码,并且进行set-cookie操作,返回的js代码经过浏览器执行又会生成新的cookie,这两个cookie一起发送给服务器,才会返回正确的网页内容试了下代码demo如下,有cookie就带上...原创 2019-10-23 11:47:55 · 920 阅读 · 1 评论 -
python爬虫 伪装 使用 mitmproxy 通过js验证
是否爬虫可以通过如下的方式检测出来爬虫如何通过https://intoli.com/blog/not-possible-to-block-chrome-headless/chrome-headless-test.html的检测1. 爬虫的代码chrome headless 配置、基本安装和使用可以参考:http://www.voidcn.com/article/p-hwlrznzi-bp...原创 2019-10-12 14:01:33 · 943 阅读 · 0 评论 -
python3网络爬虫第三章: Scrapy 爬虫框架 (1)
1.认识目录结构安装略过,使用命令创建项目 scrapy startproject myfirstpjt 这里面 scrapy.cfg 是爬虫项目配置文件,项目的同名子文件夹中,init.py 是初始化文件,items.py 是爬虫项目的数据容器文件,piplines.py 是爬虫的管道文件 seetings.py爬虫项目的设置文件2.常用的命令1.创建所需参数帮...原创 2018-02-10 16:00:45 · 351 阅读 · 0 评论 -
python3网络爬虫第二章: 正则表达式和 Cookie使用
1.原子概念原子是正则表达式中最基本的组成单位import re#普通的字符作为原子pattern = "baidu"string = "http://www.baidu.com"result=re.search(pattern,string)print(result)import re#非打印字符(.控制各式的符号)作为原子pattern = "\n"#换行符原创 2018-01-14 15:55:10 · 628 阅读 · 0 评论 -
python3网络爬虫第一章: urllib 库的使用
1.使用 urllib 库爬取百度首页import urllib.requestfile = urllib.request.urlopen("http://www.baidu.com")data = file.read()dataline = file.readline()print (dataline)print (data)2.将爬取的百度网页保存到本地第一种方原创 2018-01-13 22:19:24 · 734 阅读 · 0 评论 -
python 360 社区 监控 爬虫 in not in 问题
发生个特别奇怪的情况,最近老是收到重复邮件,检查爬虫里面有个地方竟然走了两个分支, 如果用in,元素存在的情况下,竟然会走到else里面,用notin,就不会,实在是太奇怪了,写简单的demo的时候不会出现这个情况,不知道是python的问题还是我的问题#*-coding:utf-8-*-import urllib2import reimport smtplibimport ti原创 2017-04-08 14:16:29 · 636 阅读 · 0 评论 -
爬虫 监控360论坛 有帖子自动发邮件
代码粗糙,凑合看,24小时运行没问题,写在这备忘啰嗦扯蛋版本#*-coding:utf-8-*-import urllib2import reimport smtplibfrom email.mime.text import MIMEText#邮箱账号密码_user = "xxxxxxxxx@qq.com"_pwd = "xxxxxxxxxxxx"_to = "xx原创 2017-03-26 00:09:05 · 1561 阅读 · 0 评论 -
python 爬虫 教程(3)
1.Cookie的使用利用CookieJar对象实现获取cookie的功能,存储到变量中import urllib2import cookielib#声明一个CookieJar对象实例来保存cookiecookie = cookielib.CookieJar()#利用urllib2库的HTTPCookieProcessor对象来创建cookie处理器handler=url原创 2017-03-26 00:00:21 · 351 阅读 · 0 评论 -
python 爬虫 教程(2)
1.发送Headersimport urllib import urllib2 url = 'http://www.server.com/login'user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)' values = {'username' : 'cqc', 'password' : 'XXXX原创 2017-03-20 09:40:07 · 510 阅读 · 0 评论 -
python 爬虫 教程(1)
urllib2 import urllib2response = urllib2.urlopen("http://www.baidu.com")print response.read()调用的是urllib2库里面的urlopen方法,urlopen一般接受三个参数,它的参数如下:urlopen(url, data, timeout)第一个参数url即为URL,原创 2017-03-19 18:02:12 · 440 阅读 · 0 评论 -
爬虫 自动登陆 抓取 feedback & autosendemail
# coding:utf-8import requestsimport http.cookiejarimport reimport sysimport smtplibimport timefrom email.mime.text import MIMEText_user = "xxxxxxxxxxxxxxxxxx@qq.com"_pwd = "xxxxxxxxxxxxxxxxx原创 2017-03-26 00:24:14 · 1125 阅读 · 0 评论 -
爬虫 监控 自动 匹配 抓取 卡饭 论坛 帖子 发邮件 python
值得注意的是MIMEText接收参数编码问题,灵活运用.decode().encode()contentpre = (listitem1[91:-4]).decode('gbk').encode('utf-8')content = []content.append(contentpre)contentstr = "".join(content)msg = MIMEText(cont原创 2017-03-28 19:41:55 · 1168 阅读 · 0 评论 -
爬虫 抓取论坛 数据 发邮件 两个邮箱
邮件发太多,被QQ邮箱官方给限制了,各种Send Email Failed 550 Connection frequency limited,妈的网易163邮箱也不太好使,没办法暂时两个邮箱一起上,加长时间间隔,多加几次重试,妈蛋先写出来明天跑跑不行再说,哪位大神有高招对付这种邮件发送多了受限的啊,求指教刚发现新浪也有邮箱,明天不行再加个,话说我们这百度搜索360搜索必应搜索什么垃圾,我博客里原创 2017-03-30 23:41:15 · 8792 阅读 · 0 评论 -
爬虫 访问 重试
不知道为啥,以前一直好好的,现在访问链接经常报错,所以加了错误重试# coding:utf-8import requestsimport http.cookiejarimport reimport sysimport smtplibimport timefrom email.mime.text import MIMETextretries1=30_to = "xxxx原创 2017-03-31 16:02:23 · 781 阅读 · 0 评论 -
自如网房源释放自动提醒爬虫
自如网房源释放自动提醒爬虫 主要功能为配置中未释放的房源释放后自动发邮件提醒,避免错过抢不到房子使用方法: _user = “发送邮箱” _pwd = “发送邮箱的密码” _to = “接收邮箱”打开想抢的配置中的房源, 把代码中:http://www.ziroom.com/z/vr/60138527.html 改为你想抢的房子页面的链接再运行即可,有条件的可以放服务器上 no原创 2017-12-05 23:19:10 · 10719 阅读 · 3 评论