2019年10月_Heisenberg_888

原创深度优先爬虫wiki百科

虽然显示失败了，但是先把代码放在这里。import requestsimport reimport time# import io# import sys# sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='utf-8')exist_url=[]#存放已爬取的网页g_writecount=0def scrap...

2019-10-31 17:22:17 626 1

原创 regex101一些例子（正则表达式学习笔记）

<a href="/wiki/([^:#=<>]*?)".*?</a><a href="/wiki/World_Wide_Web" title="World Wide Web">World Wide Web</a>href='/item/([^:#=<>]*?)/<a href="/wiki...

2019-10-31 15:50:32 4125

原创复习NP类问题

2019-10-29 17:09:25 247

原创爬取网站图片并存到redis

master.pyimport requestsfrom bs4 import BeautifulSoupimport reimport timefrom redis import Redishd={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Geck...

2019-10-26 21:47:31 552

转载 Redis安装和启动基本知识

https://www.runoob.com/note/36178这个教程是真实可用的，我的结果再补充点东西：虽然上一个步骤启动了Redis，但是只要关闭cmd窗口，Redis就会消失。所以要把Redis设置成Windows下的服务。关闭刚刚的cmd窗口，再打开一个新的cmd窗口，进入Redis目录，输入redis-server --service-install re...

2019-10-26 14:13:59 273

原创 pytesseract图片数字识别

import ioimport syssys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='utf-8')from PIL import Imageimport pytesseractim=Image.open('new_num.jpg')gray=im.convert('L')gray.show()gray.save...

2019-10-23 23:18:00 4361

转载 if name == 'main' 如何正确理解

https://www.cnblogs.com/yaohong/p/8660209.html

2019-10-23 10:57:30 120

原创处理登录表单(知乎表单登录）

import ioimport syssys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='utf-8')import requestssession=requests.session()post_url='http://www.santostang.com/wp-login.php'agent='Mozilla/5.0 ...

2019-10-22 16:32:34 367

转载 python3 出现print输出的中文乱码问题解决

转载链接https://blog.csdn.net/butailengmu/article/details/78479505增加3行代码import ioimport syssys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='utf-8')补充点json文件相关的东西。import ioimport sy...

2019-10-22 15:58:05 3370

原创多进程爬虫示例

import requestsimport timefrom multiprocessing import Process,Queuelink_list=[]link_head="http://"f=open(r"C:\Users\Heisenberg\Desktop\newfile.txt", "r")web_list=f.readlines()for each in web_l...

2019-10-21 09:27:04 258

原创 python多线程threading

Python 3.X实现多线程的是threading模块，使用它可以创建多线程程序，并且在多线程间进行同步和通信。因为是一个模块，所以使用前必须先导入：import threadingPython支持两种创建多线程的方式：• 通过threading.Thread()创建。• 通过继承threading.Thread类创建。通过threading.Thread()创建Thr...

2019-10-16 09:43:03 554

原创爬取中文top500中文网站并计算串行并行访问时间对比

import requestsfrom lxml import etreelink_head='https://alexa.chinaz.com/Country/index_CN'link_end='.html'hd={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, li...

2019-10-16 09:32:57 293

原创提升爬虫速度

首先介绍点概念并发（concurrency）和并行（parallelism）是两个相似的概念。并发是指在一个时间段内发生若干事件的情况，并行是指在同一时刻发生若干事件的情况。同步和异步也是两个值得比较的概念。同步就是并发或并行的各个任务不是独自运行的，任务之间有一定的交替顺序，可能在运行完一个任务得到结果后，另一个任务才会开始运行。就像接力赛跑一样，要拿到交接棒之后下一个选手才可以开始...

2019-10-15 22:43:39 534

原创财经新闻数据scrapy实战（东方财富网）

先看BeautifulSoup版本的import requestsfrom bs4 import BeautifulSouplink_head='http://finance.eastmoney.com/news/cywjh_'link_end='.html'hd={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) App...

2019-10-15 20:56:25 1112

转载 TortoiseSVN使用详细步骤

https://www.cnblogs.com/webStyle/p/3696003.html

2019-10-13 16:50:57 627

转载 svn 下载 github 上的单个目录或文件

https://www.runoob.com/w3cnote/svn-co-github-dir.html

2019-10-09 22:33:13 495

转载 anaconda安装之后，设置环境变量

https://blog.csdn.net/dd809477679/article/details/85254449

2019-10-09 09:51:40 558

原创 scrapy学习

Scrapy主要的组件有Scrapy Engine（引擎）, Scheduler（调度器）, Downloader（下载器）, Spider（爬虫器）, Item Pipeline（管道）。还有两个中间件：Downloader Middlewares（下载器中间件）和Spider Middlewares（爬虫器中间件）。这些组件的功能分别是：● 引擎：负责控制数据流在所有组件流动，并在相...

2019-10-09 09:06:37 242

原创 mongoDB启动命令

cd "C:\Program Files\MongoDB\Server\4.2\bin"mongod.exe --logpath "C:\data\log\mongodb.log" --logappend --dbpath "C:\data\db" --serviceName "MongoDB" --installnet start MongoDB

2019-10-07 23:29:47 287

原创 python读写csv文件

CSV（Comma-SeparatedValues）是逗号分隔值的文件格式，其文件以纯文本的形式存储表格数据（数字和文本）。CSV文件的每一行都用换行符分隔，列与列之间用逗号分隔。相对于TXT文件，CSV文件既可以用记事本打开，又可以用Excel打开，表现为表格形式。由于数据用逗号已经分隔开来，因此可以十分整齐地看到数据的情况，而TXT文件经常遇到变量分隔的问题。此外...

2019-10-07 22:38:42 170

原创 python的文件读写

title='this is a sentence.'#with open(r'C:\Users\Heisenberg\Desktop\newfile.txt','a+') as f:f = open(r"C:\Users\Heisenberg\Desktop\newfile.txt", "a+")f.write(title)f.close()f = open(r"C:\U...

2019-10-07 22:04:25 124 1

原创 xpath例子（补充xpath怎么寻找）

import requestsfrom lxml import etreelink='http://www.gaokao.com/e/20171227/5a4351b32ad61.shtml'hd={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) C...

2019-10-07 15:53:39 436

原创 python正则表达式re

说明：本文是按照唐松的爬虫书进行学习的，博客写转发还要写原链接，还要导出书的参考文献格式，故写了原创，罪过。import rem=re.match('www','www.baidu.com')print('匹配结果：',m)print('匹配的起点和终点：',m.span())print('匹配的起始位置：',m.start())print('匹配的终点位置：',m.en...

2019-10-02 11:16:39 193

原创知乎热榜爬虫(利用BeautifulSoup以及xpath两种方法）

import requestsfrom bs4 import BeautifulSouplink='https://www.zhihu.com/hot'hd={'cookie':'_zap=cdfc7edf-5c16-4e12-b3ce-988729dc88a6; _xsrf=ZHfN4whtJD3ULibsyuzlYPtqgHCp5UbP; d_c0="AGBjL3xj8w-PTv5JX...

2019-10-01 23:17:49 1244

原创爬虫大学排名

import requestsfrom bs4 import BeautifulSoupr=requests.get('http://www.zuihaodaxue.com/ARWU2019.html')r.encoding=r.apparent_encodingsoup=BeautifulSoup(r.text,'lxml')uni_list=soup.find_all('tr',...

2019-10-01 17:08:42 182

原创手机号码归属地查询

import requestsurl="http://shouji.xpcha.com/"try: r=requests.get(url+'13182461688'+'.html') r.raise_for_status() r.encoding=r.apparent_encoding print(r.text[680:750])except: pr...

2019-10-01 16:09:53 319

原创爬取网站图片的小例子

import requestsimport osurl="http://img0.dili360.com/pic/2019/09/23/5d88c37b0157b7000354201.jpg@!rw9"root="D:\\pic\\"path=root+url.split('@')[-1]+'.jpg'try: if not os.path.exists(root): ...

2019-10-01 15:43:13 325

salmonwilliam的博客