python爬虫
issue是fw
19 years old, struggling in life, chasing daydreams.
展开
-
python爬虫(十三、异步协程基本的使用)
使用协程,第一步创建协程对象\color{Red}使用协程,第一步创建协程对象使用协程,第一步创建协程对象第二步,创建事件循环对象第二步,创建事件循环对象第二步,创建事件循环对象第三步,把协程对象注册到事件循环对象去并执行第三步,把协程对象注册到事件循环对象去并执行第三步,把协程对象注册到事件循环对象去并执行使用async修饰函数让函数可以返回一个协程import asyncioasync def run(): print('开始执行协程内容!') print('执行完毕!!')原创 2020-06-30 22:52:49 · 238 阅读 · 0 评论 -
slenium对iframe的处理即动作链
有时候,网页上的某些标签是用一对iframe包裹起来的有时候,网页上的某些标签是用一对iframe包裹起来的有时候,网页上的某些标签是用一对iframe包裹起来的这个时候iframe的元素就不会被slenium检查到这个时候iframe的元素就不会被slenium检查到这个时候iframe的元素就不会被slenium检查到需要先切换到对应的iframe里面需要先切换到对应的iframe里面需要先切换到对应的iframe里面比如这个网页\color{Red}比如这个网页比如这个网页点我点我吖我们想点原创 2020-06-30 11:30:27 · 233 阅读 · 0 评论 -
python爬虫(十二、爬取今日头条关键词所有文章)
今日头条我们以搜索’妹子’为例那么我们在右上角的搜索框搜索妹子,出来了一系列文章那么我们在右上角的搜索框搜索妹子,出来了一系列文章那么我们在右上角的搜索框搜索妹子,出来了一系列文章检查网页的源代码,发现只是一个简短的框架检查网页的源代码,发现只是一个简短的框架检查网页的源代码,发现只是一个简短的框架于是猜测这是用于是猜测这是用于是猜测这是用AJAX技术请求的,那么我们打开XHR查看果不其然,就在这里,现在我们就是构造这些JS加载请求果不其然,就在这里,现在我们就是构造这些JS加载请求果不其然,就原创 2020-06-28 14:11:23 · 2948 阅读 · 0 评论 -
python爬虫(十、Xpath解析彼岸网小姐姐图片下载)
正则,bs4等方式都不错,不过还有个xpath呢!正则,bs4等方式都不错,不过还有个xpath呢!正则,bs4等方式都不错,不过还有个xpath呢!爬取网页效果\color{Red}效果效果注意我们取的图片alt属性是中文乱码,一般使用这种方式解码注意我们取的图片alt属性是中文乱码,一般使用这种方式解码注意我们取的图片alt属性是中文乱码,一般使用这种方式解码alt = li.xpath('./a/img/@alt')[0]+'.jpg' alt = alt.encode('iso-8原创 2020-06-26 22:17:06 · 637 阅读 · 4 评论 -
python使用selenium爬取Ajax网页(以百度图片小姐姐为例)
爬取百度图片小姐姐链接如果用静态网页去获取网页源代码会发现图片不在里面如果用静态网页去获取网页源代码会发现图片不在里面如果用静态网页去获取网页源代码会发现图片不在里面这是一个由JS加载图片的动态网页没关系,我们可以使用selenium动态模拟浏览器行为,去爬取所有图片没关系,我们可以使用selenium动态模拟浏览器行为,去爬取所有图片没关系,我们可以使用selenium动态模拟浏览器行为,去爬取所有图片由于笔者也是刚入门的selenium,所以新手大可放心\color{Red}由于笔者也是刚入门的原创 2020-06-24 15:48:55 · 522 阅读 · 0 评论 -
python爬虫(selenium学习Ⅰ)
打开谷歌浏览器from selenium import webdriverfrom selenium.webdriver.common.action_chains import ActionChainsfrom selenium.webdriver.common.keys import Keys #键盘import requestsb = webdriver.Chrome('D:\迅雷下载\chromecj.com\\chromedriver.exe') #参数是谷歌驱动进入某个网页,比如这里原创 2020-06-22 23:18:45 · 242 阅读 · 0 评论 -
python爬虫(八、爬取图片社的小姐姐图片并下载)
爬取网页Ⅰ.先抓取下这个网页,套模板就好了\color{Red}Ⅰ.先抓取下这个网页,套模板就好了Ⅰ.先抓取下这个网页,套模板就好了def ask(url): head = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.70 Safari/537.36"} re = urllib.request.Request原创 2020-06-19 21:59:54 · 3025 阅读 · 13 评论 -
python爬虫(九、爬取豆瓣top250电影信息并插入数据库sqlite)
项目简介从豆瓣top250爬取下所有250部电影信息并保存到excel或者数据库完整代码因为上一节已经讲了如何插入到excel,现在说插入数据库\color{Red}因为上一节已经讲了如何插入到excel,现在说插入数据库因为上一节已经讲了如何插入到excel,现在说插入数据库Ⅰ.建立数据库\color{Red}Ⅰ.建立数据库Ⅰ.建立数据库def init_db(dppath): #初始化数据库 sql=''' create table movie250原创 2020-06-21 11:24:12 · 972 阅读 · 0 评论 -
在PyCharm中操作自带的sqlite(为爬虫准备)
Ⅰ.创建sqlite数据库\color{Red}Ⅰ.创建sqlite数据库Ⅰ.创建sqlite数据库import sqlite3conn = sqlite3.connect('test2.db') #创建test.db执行以上代码会自动在当前目录生成text.db执行以上代码会自动在当前目录生成text.db执行以上代码会自动在当前目录生成text.db但是现在这个文件什么都不是,因为还没有连接到sqlite但是现在这个文件什么都不是,因为还没有连接到sqlite但是现在这个文件什么都不是,因原创 2020-06-20 09:51:51 · 1223 阅读 · 0 评论 -
python爬虫(七、完整爬取豆瓣top250保存到excel)
完整爬取代码链接Ⅰ.抓取基本网页\color{Red}Ⅰ.抓取基本网页Ⅰ.抓取基本网页def askurl(url): head={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.70 Safari/537.36"} response = urllib.request.Request(url=url,headers原创 2020-06-18 23:49:56 · 743 阅读 · 0 评论 -
python爬虫(六、正则提取数据)
首先抓取豆瓣top250的网页首先抓取豆瓣top250的网页首先抓取豆瓣top250的网页首先看主函数import urllib.request,parserfrom bs4 import BeautifulSoupimport refindlink = re.compile(r'<a href="(.*?)">')findimage = re.compile(r'<img.*src="(.*?)">',re.S)findjudge = re.compile(r'&l原创 2020-06-17 15:20:02 · 492 阅读 · 0 评论 -
python爬虫(四、正则表达式)
使用正则表达式引入模块re使用正则表达式引入模块re使用正则表达式引入模块reimport reⅠ.使用.compile()方法创建一个正则表达式\color{Red}Ⅰ.使用.compile()方法创建一个正则表达式Ⅰ.使用.compile()方法创建一个正则表达式pat = re.compile("AA")如代码所示,pat只匹配AA的部分如代码所示,pat只匹配AA的部分如代码所示,pat只匹配AA的部分Ⅱ.使用.search()来匹配\color{orange}Ⅱ.使用.search原创 2020-06-17 11:17:57 · 248 阅读 · 0 评论 -
python爬虫(三、提取网页内容,文档遍历)
先通过一下代码获取豆瓣的首主页文档先通过一下代码获取豆瓣的首主页文档先通过一下代码获取豆瓣的首主页文档import urllib.request,urllib.errorimport urllib.parsefrom bs4 import BeautifulSoupurl="http://www.douban.com/"head={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, l原创 2020-06-17 10:44:06 · 945 阅读 · 0 评论 -
pyhton爬虫(二、beautifulsoup的四种数据类型)
爬到的网页大概分为四种内容首先看一下获取某个网址内容的函数\color{Red}首先看一下获取某个网址内容的函数首先看一下获取某个网址内容的函数import urllib.requestimport urllib.parsefrom bs4 import BeautifulSoupdef askurl(url): head={"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML原创 2020-06-17 09:45:34 · 699 阅读 · 0 评论 -
python爬虫(一、get和post请求)
get请求\color{Red}get请求get请求可以把get请求理解为最基本的请求,写的方式也很简单import urllib.requestimport urllib.parsere=urllib.request.urlopen("http://www.baidu.com")#打开这个网址print(re.read().decode('utf-8'))#用read()方法打开并decode解码post请求\color{orange}post请求post请求这个稍微麻烦一点,打开网址的时原创 2020-06-15 16:39:33 · 398 阅读 · 0 评论