获取数据(爬虫)笔记

获取数据笔记


第一章 准备阶段

1 Mongo:把字典存到excel表格里

使用方法:在终端输入“mongod”,始终开着。

client = pymongo.MongoClient(’localhost’,27017)

表名 = clint[‘表名’]

子表名 = 表名[‘子表名’]

子表名.insert_one(数据)        ##插入数据

for i in 表格行.find()               ##读取表格中每行

a = I[‘列名’]       ##取出该行某一列的数据


2 requests: 获取动态网络信息,python

使用方法:wb_data = requests.get(url)


3 BeautifulSoup:解析网络信息,python包,名字为bs4

使用方法:



4 time

使用方法:time.sleep(1)


第二章 多进程爬虫的数据爬取


做个比喻:

一个进程占一个cpu

单进程单线程——一个人在一张桌子上吃饭

单进程多线程——多个人在一张桌子上吃饭

多进程单线程——多个人在多张桌子上吃饭(每桌一个人)

多进程多线程——多个人在多张桌子上吃饭(每桌多个人)


所需库:from multiprocessing import Pool

使用方法:   

if __name__== __main__:

pool = Pool(processes = 进程数)  ###电脑有几核会自动识别进程数为几


评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值