自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(27)
  • 资源 (1)
  • 收藏
  • 关注

原创 深度优先爬虫wiki百科

虽然显示失败了,但是先把代码放在这里。import requestsimport reimport time# import io# import sys# sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='utf-8')exist_url=[]#存放已爬取的网页g_writecount=0def scrap...

2019-10-31 17:22:17 626 1

原创 regex101一些例子(正则表达式学习笔记)

<a href="/wiki/([^:#=<>]*?)".*?</a><a href="/wiki/World_Wide_Web" title="World Wide Web">World Wide Web</a>href='/item/([^:#=<>]*?)/<a href="/wiki...

2019-10-31 15:50:32 4125

原创 复习NP类问题

2019-10-29 17:09:25 247

原创 爬取网站图片并存到redis

master.pyimport requestsfrom bs4 import BeautifulSoupimport reimport timefrom redis import Redishd={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Geck...

2019-10-26 21:47:31 552

转载 Redis安装和启动基本知识

https://www.runoob.com/note/36178这个教程是真实可用的,我的结果再补充点东西:虽然上一个步骤启动了Redis,但是只要关闭cmd窗口,Redis就会消失。所以要把Redis设置成Windows下的服务。关闭刚刚的cmd窗口,再打开一个新的cmd窗口,进入Redis目录,输入redis-server --service-install re...

2019-10-26 14:13:59 273

原创 pytesseract图片数字识别

import ioimport syssys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='utf-8')from PIL import Imageimport pytesseractim=Image.open('new_num.jpg')gray=im.convert('L')gray.show()gray.save...

2019-10-23 23:18:00 4361

转载 if __name__ == '__main__' 如何正确理解

https://www.cnblogs.com/yaohong/p/8660209.html

2019-10-23 10:57:30 120

原创 处理登录表单(知乎表单登录)

import ioimport syssys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='utf-8')import requestssession=requests.session()post_url='http://www.santostang.com/wp-login.php'agent='Mozilla/5.0 ...

2019-10-22 16:32:34 367

转载 python3 出现print输出的中文乱码问题解决

转载链接https://blog.csdn.net/butailengmu/article/details/78479505增加3行代码import ioimport syssys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='utf-8')补充点json文件相关的东西。import ioimport sy...

2019-10-22 15:58:05 3370

原创 多进程爬虫示例

import requestsimport timefrom multiprocessing import Process,Queuelink_list=[]link_head="http://"f=open(r"C:\Users\Heisenberg\Desktop\newfile.txt", "r")web_list=f.readlines()for each in web_l...

2019-10-21 09:27:04 258

原创 python多线程threading

Python 3.X实现多线程的是threading模块,使用它可以创建多线程程序,并且在多线程间进行同步和通信。因为是一个模块,所以使用前必须先导入:import threadingPython支持两种创建多线程的方式:• 通过threading.Thread()创建。• 通过继承threading.Thread类创建。通过threading.Thread()创建Thr...

2019-10-16 09:43:03 554

原创 爬取中文top500中文网站并计算串行并行访问时间对比

import requestsfrom lxml import etreelink_head='https://alexa.chinaz.com/Country/index_CN'link_end='.html'hd={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, li...

2019-10-16 09:32:57 293

原创 提升爬虫速度

首先介绍点概念并发(concurrency)和并行(parallelism)是两个相似的概念。并发是指在一个时间段内发生若干事件的情况,并行是指在同一时刻发生若干事件的情况。同步和异步也是两个值得比较的概念。同步就是并发或并行的各个任务不是独自运行的,任务之间有一定的交替顺序,可能在运行完一个任务得到结果后,另一个任务才会开始运行。就像接力赛跑一样,要拿到交接棒之后下一个选手才可以开始...

2019-10-15 22:43:39 534

原创 财经新闻数据scrapy实战(东方财富网)

先看BeautifulSoup版本的import requestsfrom bs4 import BeautifulSouplink_head='http://finance.eastmoney.com/news/cywjh_'link_end='.html'hd={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) App...

2019-10-15 20:56:25 1112

转载 TortoiseSVN使用详细步骤

https://www.cnblogs.com/webStyle/p/3696003.html

2019-10-13 16:50:57 627

转载 svn 下载 github 上的单个目录或文件

https://www.runoob.com/w3cnote/svn-co-github-dir.html

2019-10-09 22:33:13 495

转载 anaconda安装之后,设置环境变量

https://blog.csdn.net/dd809477679/article/details/85254449

2019-10-09 09:51:40 558

原创 scrapy学习

Scrapy主要的组件有Scrapy Engine(引擎), Scheduler(调度器), Downloader(下载器), Spider(爬虫器), Item Pipeline(管道)。还有两个中间件:Downloader Middlewares(下载器中间件)和Spider Middlewares(爬虫器中间件)。这些组件的功能分别是:● 引擎:负责控制数据流在所有组件流动,并在相...

2019-10-09 09:06:37 242

原创 mongoDB启动命令

cd "C:\Program Files\MongoDB\Server\4.2\bin"mongod.exe --logpath "C:\data\log\mongodb.log" --logappend --dbpath "C:\data\db" --serviceName "MongoDB" --installnet start MongoDB

2019-10-07 23:29:47 287

原创 python读写csv文件

CSV(Comma-SeparatedValues)是逗号分隔值的文件格式,其文件以纯文本的形式存储表格数据(数字和文本)。CSV文件的每一行都用换行符分隔,列与列之间用逗号分隔。 相对于TXT文件,CSV文件既可以用记事本打开,又可以用Excel打开,表现为表格形式。由于数据用逗号已经分隔开来,因此可以十分整齐地看到数据的情况,而TXT文件经常遇到变量分隔的问题。此外...

2019-10-07 22:38:42 170

原创 python的文件读写

title='this is a sentence.'#with open(r'C:\Users\Heisenberg\Desktop\newfile.txt','a+') as f:f = open(r"C:\Users\Heisenberg\Desktop\newfile.txt", "a+")f.write(title)f.close()f = open(r"C:\U...

2019-10-07 22:04:25 124 1

原创 xpath例子(补充xpath怎么寻找)

import requestsfrom lxml import etreelink='http://www.gaokao.com/e/20171227/5a4351b32ad61.shtml'hd={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) C...

2019-10-07 15:53:39 436

原创 python正则表达式re

说明:本文是按照唐松的爬虫书进行学习的,博客写转发还要写原链接,还要导出书的参考文献格式,故写了原创,罪过。import rem=re.match('www','www.baidu.com')print('匹配结果:',m)print('匹配的起点和终点:',m.span())print('匹配的起始位置:',m.start())print('匹配的终点位置:',m.en...

2019-10-02 11:16:39 193

原创 知乎热榜爬虫(利用BeautifulSoup以及xpath两种方法)

import requestsfrom bs4 import BeautifulSouplink='https://www.zhihu.com/hot'hd={'cookie':'_zap=cdfc7edf-5c16-4e12-b3ce-988729dc88a6; _xsrf=ZHfN4whtJD3ULibsyuzlYPtqgHCp5UbP; d_c0="AGBjL3xj8w-PTv5JX...

2019-10-01 23:17:49 1244

原创 爬虫大学排名

import requestsfrom bs4 import BeautifulSoupr=requests.get('http://www.zuihaodaxue.com/ARWU2019.html')r.encoding=r.apparent_encodingsoup=BeautifulSoup(r.text,'lxml')uni_list=soup.find_all('tr',...

2019-10-01 17:08:42 182

原创 手机号码归属地查询

import requestsurl="http://shouji.xpcha.com/"try: r=requests.get(url+'13182461688'+'.html') r.raise_for_status() r.encoding=r.apparent_encoding print(r.text[680:750])except: pr...

2019-10-01 16:09:53 319

原创 爬取网站图片的小例子

import requestsimport osurl="http://img0.dili360.com/pic/2019/09/23/5d88c37b0157b7000354201.jpg@!rw9"root="D:\\pic\\"path=root+url.split('@')[-1]+'.jpg'try: if not os.path.exists(root): ...

2019-10-01 15:43:13 325

wireshark抓包分析

wireshark抓包,选取其中一个报文,详细分析。

2018-12-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除