- 博客(83)
- 收藏
- 关注
原创 国内代理ip的爬取,构建ip代理池@2
免费代理ip的网站,但是结构要是改了的话,自己查看相应的网站结构,自己构造,实在不行的给,和本人联系,然后要是有更多的人知道,更多的免费ip请告知,然后看看能不能爬取,相应的代理ip。还有就是本人实操作,直接访问的,明面上的代理ip(免费版本最好的是站大爷,但是它的端口号为图片形式的验证码,比较难爬取,所以上面没有,但是能找到的直接提取,不包括注册的大概都在上面。)代码提取:https:/...
2018-12-05 23:35:16
1171
原创 国内代理ip的爬取,构建ip代理池@1
单一爬取西刺代理ip,然后构造代理ip的txt,但是没有时间的检验性和定时性,属于一锤子买卖。 # -*- coding: utf-8 -*-# @Time : 2018\10\15 0015-----20:51# @Author : huangtao# @Software: PyCharm# workspace #--------------------- #!/usr...
2018-12-05 22:58:55
609
原创 常见库爬取58二手全站信息
环境为:(穷买不起mac)win7 + python3 + pycharm + mongoDB ,数据链接为navicat 本地访问,发现一个问题,这个网站开线程爬取竟然不封ip,不用找各种ip的犯难,哎,也是少数几个吧,注意爬取首页的url,我用的是http的,注意,不要用HTTPS的。主程序main.py,连接两个爬虫,然后注释部分是断点爬取的方法,知道重复的不爬取。你可以试一下...
2018-12-04 21:56:46
1034
原创 12306登录做个记录,类似方法,具体看情况而定
from PIL import Imagefrom PIL import ImageFilterimport urllibfrom urllib import requestimport requestsimport refrom fake_useragent import UserAgentimport json# hack CERTIFICATE_VERIFY_FAILED...
2018-11-22 22:17:37
589
原创 requests;exceptions;UA;pq;re;time爬取搜狗微信文章(使用代理池,免费自造的代理池)
因为是免费的,所以成功率不是很高,所以需要更多的ip代理,看你们的情况而定,有效的ip数量越多,爬取的数量越多,然后就是搜狗微信上的数量除非是特别少的,要不然是假的,比如查找到222000条数据,但是你查到最后100页的时候最多了,所以数据数量很多的就是假的数据,按100页查询就行了,数据数量要是少的话,直接看最后,要是不加个判断,如果以后没有数据程序关闭,但是啊,这样你的代理得比较...
2018-11-22 15:35:29
349
原创 selenium;time;requests;json,微信自己的公众号接口,爬取微信公众号文章,简单案例,后期可以自己添加公众号或者构造公众号名称列表来寻找文章
这样做法可以爬虫每个公众号大概能爬60篇,就会起限制,所以要爬取全部的文章的话,要启用下篇文章中的代理池爬取,就是在请求的时候加上代理,然后睡眠时间需要你自己的尝试了。 然后其中的查询关键字‘query’,可以换成是手输入的;或者加个找好的公众号列表,在循环遍历,但是呢,这样做的话,最好在函数中定义,然后循环函数,会比这个更加清晰。# -*- coding: utf...
2018-11-22 15:01:05
620
原创 使用selenium,selenium滚动条,time,爬取京东商城数据,后期可以加入动态url访问
# -*- coding: utf-8 -*-# @date: 2018\11\16 001616:59 # @Author : huangtao!!# @FileName: 滚动条.py# @Software: PyCharm# @Blog :https://blog.csdn.net/Programmer_huangtao#如果要定位的元素在页面的下方不可见的位置,需要对...
2018-11-16 18:09:40
695
原创 使用selenium,time爬取虎牙直播数据
# -*- coding: utf-8 -*-# @date: 2018\11\16 15:19# @Author : huangtao!!# @FileName: 直播.py# @Software: PyCharm# @Blog :https://blog.csdn.net/Programmer_huangtaofrom selenium import webdriver...
2018-11-16 16:44:54
1452
原创 使用threading,queue,fake_useragent,requests ,lxml,多线程爬取嗅事百科13页文字数据
#author:huangtao# coding=utf-8#多线程库from threading import Thread#队列库from queue import Queue#请求库from fake_useragent import UserAgent#访问库import requests#etree库,lxml解析from lxml import etree...
2018-11-14 13:21:55
455
原创 爬虫案例:使用re,requests,json,RequestException爬取猫眼电影Top100加保存文件
#python3.7#author:huangtao#pycharmimport requestsfrom requests.exceptions import RequestExceptionimport reimport json#导入相关库文件#定义get_url,通过主程序传递的url进行访问def get_url(url,headers):#判断访问是否成功,如果...
2018-11-11 23:46:45
901
翻译 安装selenium 加 chromedriver
在Ubuntu上安装Chrome浏览器和ChromeDriver淘宝镜像http://npm.taobao.org/mirrors/chromedriver/一、安装Chrome浏览器1、安装依赖sudo apt-get install libxss1 libappindicator1 libindicator72、下载Chrome安装包wget https://...
2018-11-05 18:33:28
377
原创 re,正则表达式,requests,爬取小猪短租网
求助为什么我正则爬取房主图片时,总是为空,要不然就是给微信二维码,让我扫呢?谁能帮下忙?谢谢了!!!!!!!!!#encoding=utf-8import requestsfrom lxml import etreeimport reimport timeheaders = { 'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) ...
2018-11-05 12:32:05
807
原创 xpath,requests爬取小猪短租网
import requestsfrom lxml import etreeimport timeheaders = { 'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) ' 'AppleWebKit/537.36 (KHTML, like Gecko) ' 'Chrome/70.0.3538.77 Safari/537.3...
2018-11-05 12:29:07
660
原创 爬虫案例:requests,lxml,xpath 爬取豆瓣电影新片上映
第一步 确定你想要爬取的数据网站网址,,今天我想要爬取豆瓣电影的正在热映的电影,全部正在热映的电影,所以从豆瓣网站中观察全部热映的电影,从豆瓣主url,找到下面的全部热映电影的url 正在热映的电影信息,但是下面有一个问题,电影不全,有个更多电影,发现点一下url,没变但是加载全部了,所以咱们可以从这个url得到想找的网页了 看见没,...
2018-10-30 19:03:16
826
原创 14.python-爬虫的基础认知,爬虫的简单套路,分析
爬虫的基本套路基本流程 目标数据,来源地址,结构分析,实现构思, 代码实际基本手段 1.破解请求限制 请求头设置 控制请求频率 ip代理 签名、加密参数从html/cookie/js分析 2.破解登录授权 请求头带上cookie3.破解验证码 简单验证码可以使用识图验证码的第...
2018-10-21 18:16:40
321
原创 使用Requests和Lxml库,爬取豆瓣读书TOP250
from lxml import etreeimport requestsimport csv#导入需要的库fp = open('C://Users/Administrator/Desktop/book.csv','wt',newline='',encoding='utf-8')#创建csv文件,编码为utf-8writer = csv.writer(fp)writer.wri...
2018-10-20 23:39:45
1392
原创 忽略证书限制,打印12306,不是登录啊,还没到呢,接着等着!!!o( ̄ヘ ̄o#)
from fake_useragent import UserAgentimport requests#导入需要用的库url ='https://www.12306.cn/mormhweb/'#需要登录的urlheaders ={ 'User-Agent':UserAgent().chrome}#要加入的请求头response =requests.get(url,v...
2018-10-20 23:13:34
306
原创 爬虫案例:ajax异步加载,爬取豆瓣电影排行榜
from urllib.request import Request,urlopenfrom fake_useragent import UserAgent#导入相应的库base_url ='https://movie.douban.com/j/chart/top_list?type=11&interval_id=100%3A90&action=&start={}&...
2018-10-20 22:43:00
1010
原创 爬取百度贴吧html网页HTML代码
from urllib.request import Request,urlopenfrom urllib.parse import urlencodefrom fake_useragent import UserAgent#导入相应的库文件def get_html(url): headers={ 'User-Agent': UserAgent().chrome...
2018-10-20 21:38:09
1582
原创 requests库,方法可以加的参数
import requests 1.url 网址 2.headers 请求头 3.cookies cookie值 4.params 参数 5.data 请求体 6.json 请求体 7.代理proxies proxies_dict ={ } res =requests.get(...
2018-10-20 17:19:56
593
原创 模拟登录,动态token,携带cookie,密文加密,登录拉勾网
import requestsimport re#导入相应的库文件headers = { 'user-agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3573.0 Safari/537.36' }#加入请求头url = 'htt...
2018-10-20 13:02:36
2379
1
原创 自动登录Github官网,cookie验证简单模拟登录
#不同网页有不同的cookie验证方式,具体情况不定得看情况,这个要一个一个测试,然后多多验证cookie的信息变化import requestsfrom bs4 import BeautifulSoup#导入相应的包r1 = requests.get('https://github.com/login')#网页上找到相应的登录url网页s1 = BeautifulSoup(r1....
2018-10-20 01:30:59
2586
转载 正则表达式具体用法
正则表达式的一般字符有3个 字符 含义 。 匹配任意单个字符(不包括换行符\ n)的 \ 转义字符(把有特殊含义的字符转换成字面意思) [...] 字符集。对应字符集中的任意字符 正则表达式预定...
2018-10-19 13:39:30
307
原创 爬取酷狗酷狗飙升榜
链接:https://pan.baidu.com/s/1QxIMtVTip-o8_OoLfkrlfg 提取码:jxes #---------------------import requestsfrom fake_useragent import UserAgentfrom bs4 import BeautifulSoupimport time#导入相应的库文件headers...
2018-10-19 13:19:15
1115
原创 爬取酷狗歌单top500
import requestsfrom bs4 import BeautifulSoupimport timeheaders = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36'...
2018-10-19 13:16:21
1514
原创 爬虫的入门库Beautifulsoup库,解析网页
BeautifulSoup 库是一个非常流行的的Python中的中,模块通过BeautifulSoup 库可以轻松的解析请求库请求的| |网页,并| | |网页把源代码解析为汤文档,以便过滤提取数据。 import requestsfrom bs4 import BeautifulSoupheaders ={ 'User-Agent': 'Mo...
2018-10-19 12:34:02
455
原创 小猪短租网多个价格的查找,requests库,o( ̄ヘ ̄o#)bs4库的简单使用
import requests#导入requests库,起到访问作用# import random#这个库是随机选择作用,这个爬虫先不用from fake_useragent import UserAgent#导入请求头库,构造随机请求头from bs4 import BeautifulSoup#导入bs4库搜索内容,解析requesets请求的网页headers={ '...
2018-10-19 11:52:35
555
原创 小猪短租网一个网页上的单个价格
import requests#导入requests库,起到访问作用# import random#这个库是随机选择作用,这个爬虫先不用from fake_useragent import UserAgent#导入请求头库,构造随机请求头from bs4 import BeautifulSoup#导入bs4库搜索内容,解析requesets请求的网页headers={ '...
2018-10-19 11:35:29
749
原创 小猪短租网requests库使用
请求库官方文档指出:让HTTP 。服务人类细心的读者就会发现,请求库的作用英文就是请求网站电子杂志|网页数据的从简单的实例开始,讲解。请求库的使用方法。import requestsres = requests.get('http://bj.xiaozhu.com/')print(res)#pycharm中返回结果为<Response [200]>,说明...
2018-10-19 11:00:30
695
原创 13.python-爬虫的基础认知,爬虫的编译器操作,编程前奏
python之所以强大并逐渐流行起来,一部分原因要归功于的Python的强大的第三方库。这样用户就不用了解底层的思想,用最少的代码写出最多的功能。 在PyCharm中安装(1 )打开PyCharm ,在菜单栏选择:文件> Defalut 设置。有的直接是设置(2 )单击左侧Project Interpreter 选项,在窗口右方选择Python 环境。(3...
2018-10-17 17:06:06
1005
原创 爬虫的入门库fake_useragent,伪造随机的请求头,用法-案例篇
from urllib.request import Request,urlopenfrom fake_useragent import UserAgenturl ='https://www.sxt.cn/index/user.html'headers ={ 'User-Agent': UserAgent().chrome, }request =Request(url,h...
2018-10-17 12:38:47
1018
原创 request对象的使用,构造单一设备请求头,用法-案例篇
from urllib.request import urlopenfrom urllib.request import Requesturl ='http://www.baidu.com/'headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like G...
2018-10-17 11:56:33
799
原创 7.1python-爬虫的基础认知,python版本之争
Python入门当然建议直接学Python3了,毕竟是趋势。 而且Python3中对于字符编码的改动会让新手省掉很多很多很多关于字符编解码问题的纠结。 另一方面看你项目大小吧。 如果自己写代码,Python2和Python3没啥区别。 但是如果你是奔着Scrapy这个爬对于爬虫项目,python 2和3哪个好些? 主流公司相对于比较保守,使用的事Python2.x版本...
2018-10-17 11:03:34
889
原创 爬虫的入门库random,伪造随机的请求头,用法-案例篇
今天,作为爬虫小白的我,我又被IP了,我就想怎么不被封,因为比较傻,不知道什么叫阀,不知道什么叫请求头,什么叫IP地址,就爬啊,爬啊,结果写了半天的爬虫被封了,我就问了下度娘,她说我是被IP访问异常了,要么手输入验证码,要不然反爬,这些不懂,但是我懂了,一个东西,我的电脑一个东西查半天人家网站不买东西,人家不高兴了,所以封了我,要我换个人去,网上说的,换头,换设备头请求头(相当于身份证的名字...
2018-10-17 01:54:21
2180
原创 8.python-爬虫的基础认知, 爬虫程序编辑所用的编译器
老话说的好:工欲善其事必先利其器!所以,我们在使用 Python 来编程的时候,我们也需要一个牛逼的武器,来编写我们的代码 —— 编辑器!编译器不重要,看个人喜好而定,记事本都是可以写的。1. Sublime Texthttp://www.sublimetext.com/Sublime Text 比较适合 Python 新手使用,Sublime Text支持跨平台,而且可以使用...
2018-10-17 00:41:56
1799
原创 爬虫的入门库urllib库,简单请求,简单应用
from urllib.request import urlopen#导入相应的库#urllib.request和requests两者之间的差别,大体功能是一样的,具体用法,后面你自己感觉哪个适合自己url ='http://www.baidu.com/'#今天咱们爬取百度首页,是不是很傻,就是因为百度首页,没啥东西啊,拿简单的东西入手,给自己信心啊response= urlope...
2018-10-16 22:39:43
244
原创 12.python-爬虫的基础认知,选择自己喜好的浏览器,推荐谷歌浏览器(个人推荐,选不选自己选择)
爬虫的浏览器一般讲究效率,使自己选择的。选取一个浏览器,小白,网上得出结论谷歌浏览器OK!不是不让用了吗?怎么还用谷歌?? 为什么爬虫要用Chrome? 为什么大家似乎都值得header应该怎么写? 为什么大家都知道怎么爬取网页的路线? 为什么.... 如果你也跟我一样,有过上面类似的疑问,那么我觉得,这篇文章你可能值得看一下。1. 设置谷歌...
2018-10-11 15:19:04
3541
原创 15.python-爬虫的基础认知, 状态码认知(请求状态码)
写一个最简单的爬虫先介绍,我的环境:Ubuntu:18.04(64位)IDE(解释为开发环境,用什么写的)Python3.6注意Python2.X 和Python3.X有些语法问题,看情况而定爬虫网站为'http://www.xiaozhu.com/' 前面说过了request请求,response响应,OK第一个爬虫完成了,是不是很简单.不说这么...
2018-10-11 14:27:19
1677
原创 2.python-爬虫的基础认知,如何学好爬虫?简单认识,简单学习
作为一个小白来说,看那多原理,等于天书,看不懂,但是为啥是叫了解爬虫,而不是懂里边内容,框架(Scrapy)怎么写的,我作为小白知道怎么用,不就行了吗,之后在了解深入. 作为小白呢?知道爬虫是爬取网络数据的就行了. 网络爬虫(或称为网络爬虫、网络蜘蛛、机器人)是搜索引擎最上游的一个模块,是负责搜索引擎内容索引的第一关。 很多人为了提高自己网站的索引量,都是...
2018-10-11 13:47:50
731
原创 爬取网站小猪短租的少量信息及详细介绍 ,requests库,bs4库的使用
#!/usr/bin/env python# -*- coding:utf-8 -*- # @Time : 18-10-10 下午9:21import requests #导入requests包;发请求网页from bs4 import BeautifulSoup #导入bs4包;解析网页import time #导入time包 时间作用本文为:睡眠时间headers ={ ...
2018-10-11 12:49:04
1101
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅