![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python爬虫学习
Heisenberg_888
互联网工程师,努力学习中
展开
-
留个作业
爬取风景图片并保存到本地文件夹里http://pic.fengjing.com/参考代码from bs4 import BeautifulSoupimport requestsimport timeimport osimport threadingdef get_html(url): try: response=requests.get(url)...原创 2019-12-26 23:42:26 · 131 阅读 · 0 评论 -
微信读书爬虫
没爬出来文字,正在努力中。。。。import requestsfrom lxml import etreelink='https://weread.qq.com/web/reader/92d32410715db32941cb665'hd={'Cookie':'pgv_pvi=2308313088; RK=6GxVm0pNOQ; ptcz=a97a0f28f53c36a08e66bcb...原创 2019-11-28 16:09:31 · 2430 阅读 · 1 评论 -
百度百科递归爬虫
import requestsimport reimport timeimport ioimport syssys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='utf-8')exist_url=[]#存放已爬取的网页g_writecount=0def scrappy(url,depth=1): global g_w...原创 2019-11-16 09:35:33 · 306 阅读 · 1 评论 -
深度优先爬虫wiki百科
虽然显示失败了,但是先把代码放在这里。import requestsimport reimport time# import io# import sys# sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='utf-8')exist_url=[]#存放已爬取的网页g_writecount=0def scrap...原创 2019-10-31 17:22:17 · 617 阅读 · 1 评论 -
爬取网站图片并存到redis
master.pyimport requestsfrom bs4 import BeautifulSoupimport reimport timefrom redis import Redishd={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Geck...原创 2019-10-26 21:47:31 · 546 阅读 · 0 评论 -
Redis安装和启动基本知识
https://www.runoob.com/note/36178这个教程是真实可用的,我的结果再补充点东西:虽然上一个步骤启动了Redis,但是只要关闭cmd窗口,Redis就会消失。所以要把Redis设置成Windows下的服务。关闭刚刚的cmd窗口,再打开一个新的cmd窗口,进入Redis目录,输入redis-server --service-install re...转载 2019-10-26 14:13:59 · 266 阅读 · 0 评论 -
pytesseract图片数字识别
import ioimport syssys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='utf-8')from PIL import Imageimport pytesseractim=Image.open('new_num.jpg')gray=im.convert('L')gray.show()gray.save...原创 2019-10-23 23:18:00 · 4312 阅读 · 0 评论 -
处理登录表单(知乎表单登录)
import ioimport syssys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='utf-8')import requestssession=requests.session()post_url='http://www.santostang.com/wp-login.php'agent='Mozilla/5.0 ...原创 2019-10-22 16:32:34 · 359 阅读 · 0 评论 -
多进程爬虫示例
import requestsimport timefrom multiprocessing import Process,Queuelink_list=[]link_head="http://"f=open(r"C:\Users\Heisenberg\Desktop\newfile.txt", "r")web_list=f.readlines()for each in web_l...原创 2019-10-21 09:27:04 · 248 阅读 · 0 评论 -
爬取中文top500中文网站并计算串行并行访问时间对比
import requestsfrom lxml import etreelink_head='https://alexa.chinaz.com/Country/index_CN'link_end='.html'hd={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, li...原创 2019-10-16 09:32:57 · 285 阅读 · 0 评论 -
提升爬虫速度
首先介绍点概念并发(concurrency)和并行(parallelism)是两个相似的概念。并发是指在一个时间段内发生若干事件的情况,并行是指在同一时刻发生若干事件的情况。同步和异步也是两个值得比较的概念。同步就是并发或并行的各个任务不是独自运行的,任务之间有一定的交替顺序,可能在运行完一个任务得到结果后,另一个任务才会开始运行。就像接力赛跑一样,要拿到交接棒之后下一个选手才可以开始...原创 2019-10-15 22:43:39 · 524 阅读 · 0 评论 -
财经新闻数据scrapy实战(东方财富网)
先看BeautifulSoup版本的import requestsfrom bs4 import BeautifulSouplink_head='http://finance.eastmoney.com/news/cywjh_'link_end='.html'hd={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) App...原创 2019-10-15 20:56:25 · 1102 阅读 · 0 评论 -
TortoiseSVN使用详细步骤
https://www.cnblogs.com/webStyle/p/3696003.html转载 2019-10-13 16:50:57 · 622 阅读 · 0 评论 -
scrapy学习
Scrapy主要的组件有Scrapy Engine(引擎), Scheduler(调度器), Downloader(下载器), Spider(爬虫器), Item Pipeline(管道)。还有两个中间件:Downloader Middlewares(下载器中间件)和Spider Middlewares(爬虫器中间件)。这些组件的功能分别是:● 引擎:负责控制数据流在所有组件流动,并在相...原创 2019-10-09 09:06:37 · 234 阅读 · 0 评论 -
mongoDB启动命令
cd "C:\Program Files\MongoDB\Server\4.2\bin"mongod.exe --logpath "C:\data\log\mongodb.log" --logappend --dbpath "C:\data\db" --serviceName "MongoDB" --installnet start MongoDB原创 2019-10-07 23:29:47 · 277 阅读 · 0 评论 -
python正则表达式re
说明:本文是按照唐松的爬虫书进行学习的,博客写转发还要写原链接,还要导出书的参考文献格式,故写了原创,罪过。import rem=re.match('www','www.baidu.com')print('匹配结果:',m)print('匹配的起点和终点:',m.span())print('匹配的起始位置:',m.start())print('匹配的终点位置:',m.en...原创 2019-10-02 11:16:39 · 184 阅读 · 0 评论 -
知乎热榜爬虫(利用BeautifulSoup以及xpath两种方法)
import requestsfrom bs4 import BeautifulSouplink='https://www.zhihu.com/hot'hd={'cookie':'_zap=cdfc7edf-5c16-4e12-b3ce-988729dc88a6; _xsrf=ZHfN4whtJD3ULibsyuzlYPtqgHCp5UbP; d_c0="AGBjL3xj8w-PTv5JX...原创 2019-10-01 23:17:49 · 1225 阅读 · 0 评论 -
python下载安装requests库
爬虫需要用到requests模块,需要安装pip install requests原创 2019-01-31 18:01:07 · 31408 阅读 · 3 评论 -
Python爬虫(1):基本原理
什么是爬虫?爬虫即网络爬虫,英文是Web Spider。翻译过来就是网络上爬行的蜘蛛,如果把互联网看作一张大网,那么爬虫就是在大网上爬来爬去的蜘蛛,碰到想要的食物,就把他抓取出来。我们在浏览器中输入一个网址,敲击回车,看到网站的页面信息。这就是浏览器请求了网站的服务器,获取到网络资源。那么,爬虫也相当于模拟浏览器发送请求,获得到HTML代码。HTML代码里通常包含了标签和文字信息,我们...转载 2019-01-31 18:07:23 · 221 阅读 · 0 评论 -
chrome浏览器的审查元素
有些网页如果我们直接去请求的话,他会查看请求的对象是不是浏览器,如果没有浏览器信息就会禁止我们爬虫的访问,这个时候我们就要给爬虫加一个headers,加一个浏览器的user-agent信息。这样我们就可以正常访问了。如果有的伙伴不知道怎么得到User-Agent,可以打开浏览器的审查元素,找到network,随便点击一个链接就可以看到User-Agent的信息了。网页任意位置右击或者F12...原创 2019-01-31 18:24:45 · 4683 阅读 · 3 评论 -
Python爬虫(2):Requests的基本用法
虽然Python有内置的urllib库,可以实现网络的请求,但是我并不推荐。因为urllib在很多时候使用起来不方便,比如加一个代理,处理Cookie时API都很繁琐,再比如发送一个POST请求也很麻烦。而Requests就相当于urllib的升级版本,简化了urllib的使用方法。有了Requests,我们可以用几句代码实现代理的设置,Cookie的设置,非常方便。下面我就给大家整理了Req...转载 2019-01-31 18:28:44 · 1888 阅读 · 0 评论 -
Python爬虫(3):Requests的高级用法
上一篇文章我们整理了Requests库的基本用法,相信大家已经经过爬取一些简单网页的练习,已经很熟练了。这一篇文章我们来 看一下Requests库的高级操作。高级操作1.文件上传import requestsfiles = {'file' : open('logo.gif','rb')}resp = requests.post('http://httpbin.org/po...转载 2019-02-01 10:10:32 · 330 阅读 · 0 评论 -
Python爬虫(4):Beautiful Soup的常用方法
Requests库的用法大家肯定已经熟练掌握了,但是当我们使用Requests获取到网页的 HTML 代码信息后,我们要怎样才能抓取到我们想要的信息呢?我相信大家肯定尝试过很多办法,比如字符串的 find 方法,还有高级点的正则表达式。虽然正则可以匹配到我们需要的信息,但是我相信大家在匹配某个字符串一次一次尝试着正则匹配的规则时,一定很郁闷。那么,我们就会想有没有方便点的工具呢。答案是肯定的,...转载 2019-02-01 10:20:08 · 808 阅读 · 0 评论 -
Python爬虫(5):豆瓣读书练手爬虫
我们在之前的文章中基本上掌握了Python爬虫的原理和方法,不知道大家有没有练习呢。今天我就来找一个简单的网页进行爬取,就当是给之前的兵书做一个实践。不然不就是纸上谈兵的赵括了吗。好了,我们这次的目标是豆瓣图书Top250,地址是:https://book.douban.com/top250?start=0准备爬一个网页我们至少要知道自己需要什么信息,大家看截图:红色箭头标记的...转载 2019-02-01 10:55:26 · 529 阅读 · 0 评论 -
python爬虫豆瓣top250电影,评分,评论等
import requestsfrom bs4 import BeautifulSoupdef get_movies(): headers={'User-Agent':'Mozilla/5.0 (iPad; CPU OS 11_0 like Mac OS X) AppleWebKit/604.1.34 (KHTML, like Gecko) Version/11.0 Mobile/1...原创 2019-09-24 20:18:16 · 1847 阅读 · 0 评论 -
解决:'chromedriver' executable needs to be in PATH问题
1.首先需要下载Chromedriver,下载后得到的是一个chromedriver.exe文件。chromedriver下载地址2.将chromedriver.exe拷贝至谷歌浏览器目录(如 C:\Program Files\Google\Chrome\Application)以及python根目录(C:\Python27)。3.将谷歌浏览器环境变量添加到path(C:\Users\HD00...转载 2019-09-25 10:11:05 · 466 阅读 · 0 评论 -
爬虫限制css,图片,JavaScript 的执行
# 限制 css,图片,JavaScript 的执行from selenium import webdriverfp = webdriver.FirefoxProfile()fp.set_preference("javascript.enabled", False)fp.set_preference("permissions.default.stylesheet",2)fp.set_p...原创 2019-09-28 10:29:55 · 248 阅读 · 0 评论 -
爬取网站文章标题
检查网页源代码,确实标题的类名即可:代码就可以这样写了import requestsfrom bs4 import BeautifulSouplink="http://www.santostang.com/"headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KH...原创 2019-09-30 11:18:27 · 2350 阅读 · 0 评论 -
北京安居客二手房爬虫
import requestsfrom bs4 import BeautifulSoupfor i in range(10): link="https://beijing.anjuke.com/sale/p"+str(i) headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/...原创 2019-09-30 21:56:26 · 648 阅读 · 1 评论 -
爬取网站图片的小例子
import requestsimport osurl="http://img0.dili360.com/pic/2019/09/23/5d88c37b0157b7000354201.jpg@!rw9"root="D:\\pic\\"path=root+url.split('@')[-1]+'.jpg'try: if not os.path.exists(root): ...原创 2019-10-01 15:43:13 · 319 阅读 · 0 评论 -
手机号码归属地查询
import requestsurl="http://shouji.xpcha.com/"try: r=requests.get(url+'13182461688'+'.html') r.raise_for_status() r.encoding=r.apparent_encoding print(r.text[680:750])except: pr...原创 2019-10-01 16:09:53 · 310 阅读 · 0 评论 -
爬虫大学排名
import requestsfrom bs4 import BeautifulSoupr=requests.get('http://www.zuihaodaxue.com/ARWU2019.html')r.encoding=r.apparent_encodingsoup=BeautifulSoup(r.text,'lxml')uni_list=soup.find_all('tr',...原创 2019-10-01 17:08:42 · 175 阅读 · 0 评论 -
python爬虫初试
网上好多我都跑不起来,先放个我能跑起来的代码放着如下代码片段是用来查询亚马逊网站指定书排名的from atexit import registerfrom re import compilefrom threading import Threadfrom time import ctimefrom urllib.request import urlopen,Request R...原创 2019-01-31 14:01:59 · 207 阅读 · 0 评论