Python 爬虫
法海爱捉虫
大虫在哪里呀,长虫在哪里,虫虫在法海滴禅杖和盆钵里!
展开
-
Reptile_01 Html网页爬虫(BeautifulSoup模块)
BeautifulSoup 主要用来解析和提取Htm网页中的数据由于BeautifulSoup不是Python标准库,需要单独安装它,我们的学习系统已经安装好了。如果你是在自己的电脑上运行,需要在终端输入一行代码运行:pip install BeautifulSoup4BeautifulSoup解析数据的用法很简单:bs对象 = BeautifulSoup(要解析的文本,‘解析器’)解析器...原创 2019-10-15 09:23:48 · 286 阅读 · 0 评论 -
Reptile_02 json网页爬虫QQ华晨宇音乐
以下以 QQ音乐为例,搜索华晨宇,获取歌曲名称,专辑,连接地址一、NetworkNetwork的功能是:记录在当前页面上发生的所有请求。常用的是:ALL(查看全部)XHR(仅查看XHR,我们等会重点讲它)Doc(Document,第0个请求一般在这里)Img(仅查看图片)Media(仅查看媒体文件)Other(其他)JS和CSS,则是前端代码,负责发起请求和页面实现Font...原创 2019-10-15 09:23:39 · 312 阅读 · 0 评论 -
Reptile_03 csv与xlsx存储
存储成csv格式文件和存储成Excel文件,这两种不同的存储方式需要引用的模块也是不同的。操作csv文件我们需要借助csv模块;操作xlsx文件则需要借助openpyxl模块一、CSV 写import csv#引用csv模块。csv_file = open('file\\text.csv','w',newline='',encoding='utf-8')#创建csv文件,传入参数:文件...原创 2019-10-15 09:23:32 · 198 阅读 · 0 评论 -
Reptile_04 cookies存储与读取
cookies的作用当登录一个网站,短时间内容存储手动或自动存储cookie,再进行其它操作时避免用户重复登录。一、cookies获取与使用cookies获取代码:login_in = requests.post(url,headers=headers,data=data)#用requests.post发起请求,放入参数:请求登录的网址、请求头和登录参数,然后赋值给login_in。c...原创 2019-10-15 09:23:24 · 215 阅读 · 0 评论 -
Reptile_05 selenium
selenium可以控制浏览器,做出自动打开、输入、点击等操作使用selenium需要安装pip install selenium # Windows电脑安装seleniumpip3 install selenium # Mac电脑安装selenium一、浏览器驱动配置selenium的脚本可以控制所有常见浏览器的操作,在使用之前,需要安装浏览器的驱动,推荐使用Chrome浏览器点击...原创 2019-10-15 09:23:17 · 155 阅读 · 0 评论 -
python_06 定时任务
安装第三方库:schedulepip install schedule代码解释功能:import scheduleimport time#引入schedule和timedef job(): print("定时任务开始。。。.")#定义一个叫job的函数,函数的功能是打印'定时任务开始。。。.'schedule.every(10).minutes.do(job) ...原创 2019-10-15 09:23:06 · 130 阅读 · 0 评论 -
Reptile_07 多协程进行爬虫
一、gevent库安装方法:window电脑:在终端输入命令:pip install geventmac电脑:在终端输入命令:pip3 install gevent创建任务与执行执行:gevent.spawn()#创建任务gevent.joinall()#执行任务简单的多协程代码:from gevent import monkeyimport gevent,request...原创 2019-10-15 09:22:58 · 258 阅读 · 0 评论 -
Reptile_08 Scrapy框架
一、 Scrapy安装Windows:在终端输入命令:pip install scrapymac:在终端输入命令:pip3 install scrapy二、 创建项目以豆瓣读书为例如:在D:\Study下创建项目 douban 文件夹,则使用CMD进入D:\Study目录,运行命令:scrapy startproject douban打开该项目目录,在spiders目录下创建一个.p...原创 2019-10-15 09:22:49 · 593 阅读 · 0 评论