爬虫_Peace & Love的博客-CSDN博客

爬虫

关注

关注数：文章数：17 文章阅读量：35960 文章收藏量：16

作者: Peace & Love

https://github.com/584807419

展开

python 图片、文件通过 request header 多线程下载

写爬虫过程中发现图片下载比较慢，遂使用多线程下载来提速import threadingimport requestsclass MulThreadDownload(threading.Thread): def __init__(self, url, startpos, endpos, temp_dict, headers, proxies): super(MulT...

原创 2020-02-20 14:47:36 · 2981 阅读 · 0 评论
selenium webdriver chrome 获取文件下载链接（js生成的链接，点击事件发送请求并弹窗的那种）

import jsonfrom selenium import webdriverfrom selenium.webdriver.chrome.options import Optionsfrom selenium.webdriver.common.desired_capabilities import DesiredCapabilitieschrome_options = Option...

原创 2019-11-12 23:04:22 · 3324 阅读 · 0 评论
爬虫 headless 访问知道创宇加速乐 CDN 网站

通过 requests.get 直接请求网站首页，返回 521 错误提示码，返回结果是js代码。这是采用加速乐反爬技术，在访问前先判断客户端的cookie是否正确，如果不正确，返回521状态码和一段js代码，并且进行set-cookie操作，返回的js代码经过浏览器执行又会生成新的cookie，这两个cookie一起发送给服务器，才会返回正确的网页内容试了下代码demo如下，有cookie就带上...

原创 2019-10-23 11:47:55 · 920 阅读 · 1 评论
python爬虫伪装使用 mitmproxy 通过js验证

是否爬虫可以通过如下的方式检测出来爬虫如何通过https://intoli.com/blog/not-possible-to-block-chrome-headless/chrome-headless-test.html的检测1. 爬虫的代码chrome headless 配置、基本安装和使用可以参考：http://www.voidcn.com/article/p-hwlrznzi-bp...

原创 2019-10-12 14:01:33 · 943 阅读 · 0 评论
python3网络爬虫第三章: Scrapy 爬虫框架 (1)

1.认识目录结构安装略过,使用命令创建项目 scrapy startproject myfirstpjt 这里面 scrapy.cfg 是爬虫项目配置文件,项目的同名子文件夹中,init.py 是初始化文件,items.py 是爬虫项目的数据容器文件,piplines.py 是爬虫的管道文件 seetings.py爬虫项目的设置文件2.常用的命令1.创建所需参数帮...

原创 2018-02-10 16:00:45 · 351 阅读 · 0 评论
python3网络爬虫第二章: 正则表达式和 Cookie使用

1.原子概念原子是正则表达式中最基本的组成单位import re#普通的字符作为原子pattern = "baidu"string = "http://www.baidu.com"result=re.search(pattern,string)print(result)import re#非打印字符(.控制各式的符号)作为原子pattern = "\n"#换行符

原创 2018-01-14 15:55:10 · 628 阅读 · 0 评论
python3网络爬虫第一章: urllib 库的使用

1.使用 urllib 库爬取百度首页import urllib.requestfile = urllib.request.urlopen("http://www.baidu.com")data = file.read()dataline = file.readline()print (dataline)print (data)2.将爬取的百度网页保存到本地第一种方

原创 2018-01-13 22:19:24 · 734 阅读 · 0 评论
python 360 社区监控爬虫 in not in 问题

发生个特别奇怪的情况，最近老是收到重复邮件，检查爬虫里面有个地方竟然走了两个分支，如果用in，元素存在的情况下，竟然会走到else里面，用notin，就不会，实在是太奇怪了，写简单的demo的时候不会出现这个情况，不知道是python的问题还是我的问题#*-coding:utf-8-*-import urllib2import reimport smtplibimport ti

原创 2017-04-08 14:16:29 · 636 阅读 · 0 评论
爬虫监控360论坛有帖子自动发邮件

代码粗糙，凑合看，24小时运行没问题，写在这备忘啰嗦扯蛋版本#*-coding:utf-8-*-import urllib2import reimport smtplibfrom email.mime.text import MIMEText#邮箱账号密码_user = "xxxxxxxxx@qq.com"_pwd = "xxxxxxxxxxxx"_to = "xx

原创 2017-03-26 00:09:05 · 1561 阅读 · 0 评论
python 爬虫教程（3）

1.Cookie的使用利用CookieJar对象实现获取cookie的功能，存储到变量中import urllib2import cookielib#声明一个CookieJar对象实例来保存cookiecookie = cookielib.CookieJar()#利用urllib2库的HTTPCookieProcessor对象来创建cookie处理器handler=url

原创 2017-03-26 00:00:21 · 351 阅读 · 0 评论
python 爬虫教程（2）

1.发送Headersimport urllib import urllib2 url = 'http://www.server.com/login'user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)' values = {'username' : 'cqc', 'password' : 'XXXX

原创 2017-03-20 09:40:07 · 510 阅读 · 0 评论
python 爬虫教程（1）

urllib2 import urllib2response = urllib2.urlopen("http://www.baidu.com")print response.read()调用的是urllib2库里面的urlopen方法，urlopen一般接受三个参数，它的参数如下：urlopen(url, data, timeout)第一个参数url即为URL，

原创 2017-03-19 18:02:12 · 440 阅读 · 0 评论
爬虫自动登陆抓取 feedback & autosendemail

# coding:utf-8import requestsimport http.cookiejarimport reimport sysimport smtplibimport timefrom email.mime.text import MIMEText_user = "xxxxxxxxxxxxxxxxxx@qq.com"_pwd = "xxxxxxxxxxxxxxxxx

原创 2017-03-26 00:24:14 · 1125 阅读 · 0 评论
爬虫监控自动匹配抓取卡饭论坛帖子发邮件 python

值得注意的是MIMEText接收参数编码问题，灵活运用.decode().encode()contentpre = (listitem1[91:-4]).decode('gbk').encode('utf-8')content = []content.append(contentpre)contentstr = "".join(content)msg = MIMEText(cont

原创 2017-03-28 19:41:55 · 1168 阅读 · 0 评论
爬虫抓取论坛数据发邮件两个邮箱

邮件发太多，被QQ邮箱官方给限制了，各种Send Email Failed 550 Connection frequency limited，妈的网易163邮箱也不太好使，没办法暂时两个邮箱一起上，加长时间间隔，多加几次重试，妈蛋先写出来明天跑跑不行再说，哪位大神有高招对付这种邮件发送多了受限的啊，求指教刚发现新浪也有邮箱，明天不行再加个，话说我们这百度搜索360搜索必应搜索什么垃圾，我博客里

原创 2017-03-30 23:41:15 · 8792 阅读 · 0 评论
爬虫访问重试

不知道为啥，以前一直好好的，现在访问链接经常报错，所以加了错误重试# coding:utf-8import requestsimport http.cookiejarimport reimport sysimport smtplibimport timefrom email.mime.text import MIMETextretries1=30_to = "xxxx

原创 2017-03-31 16:02:23 · 781 阅读 · 0 评论
自如网房源释放自动提醒爬虫

自如网房源释放自动提醒爬虫主要功能为配置中未释放的房源释放后自动发邮件提醒,避免错过抢不到房子使用方法: _user = “发送邮箱” _pwd = “发送邮箱的密码” _to = “接收邮箱”打开想抢的配置中的房源, 把代码中:http://www.ziroom.com/z/vr/60138527.html 改为你想抢的房子页面的链接再运行即可,有条件的可以放服务器上 no

原创 2017-12-05 23:19:10 · 10719 阅读 · 3 评论

爬虫

作者: Peace & Love

python 图片、文件 通过 request header 多线程下载

selenium webdriver chrome 获取 文件 下载 链接 （js生成的链接，点击事件发送请求并弹窗的那种）

爬虫 headless 访问 知道创宇 加速乐 CDN 网站

python爬虫 伪装 使用 mitmproxy 通过js验证

python3网络爬虫第三章: Scrapy 爬虫框架 (1)

python3网络爬虫第二章: 正则表达式和 Cookie使用

python3网络爬虫第一章: urllib 库的使用

python 360 社区 监控 爬虫 in not in 问题

爬虫 监控360论坛 有帖子自动发邮件

python 爬虫 教程（3）

python 爬虫 教程（2）

python 爬虫 教程（1）

爬虫 自动登陆 抓取 feedback & autosendemail

爬虫 监控 自动 匹配 抓取 卡饭 论坛 帖子 发邮件 python

爬虫 抓取论坛 数据 发邮件 两个邮箱

爬虫 访问 重试

自如网房源释放自动提醒爬虫

python 图片、文件通过 request header 多线程下载

selenium webdriver chrome 获取文件下载链接（js生成的链接，点击事件发送请求并弹窗的那种）

爬虫 headless 访问知道创宇加速乐 CDN 网站

python爬虫伪装使用 mitmproxy 通过js验证

python 360 社区监控爬虫 in not in 问题

爬虫监控360论坛有帖子自动发邮件

python 爬虫教程（3）

python 爬虫教程（2）

python 爬虫教程（1）

爬虫自动登陆抓取 feedback & autosendemail

爬虫监控自动匹配抓取卡饭论坛帖子发邮件 python

爬虫抓取论坛数据发邮件两个邮箱

爬虫访问重试