爬虫
宋建国
接下来要更新的内容有:Flask全栈知识
展开
-
【中文乱码】爬虫requests返回值中文乱码问题处理
【代码】【中文乱码】爬虫requests返回值中文乱码问题处理。原创 2023-01-03 14:28:27 · 2683 阅读 · 1 评论 -
Python多线程/协程爬虫应用(带执行效率对比)
多线程版本#encoding='utf-8' import requestsfrom lxml import etreeimport time"""with open('./song.txt','w',encoding='utf-8') as fp: fp.write(resp.text)"""#############################多线程版本 13.422082662582397###跳转单本网址,获取文本内容(此处需处理)def parse_sing.原创 2022-02-22 08:31:59 · 142 阅读 · 0 评论 -
爬虫常用本地存储形式(TXT,JSON,CSV)
一,TXT存储TXT格式读写在本站中的详细解释1.读取/写入模式2.使用演示#常规写法file = open('explore.txt','a',encoding='utf-8')file.write ('\n'.join([question, author, answer]))file.write('\n'+ '= '*50 +'\n') file. close()#不用关闭指针的简化写法with open('./song.txt','w',encoding='utf-8') .原创 2022-01-11 15:40:55 · 1010 阅读 · 0 评论 -
1.爬虫系统学习--爬虫应知知识(后续还会更新)
1.爬虫在使用场景中的分类通用爬虫抓取系统重要组成部分。抓取的是一整张页面数据。聚焦爬虫是建立在通用爬虫的基础之上。抓取的是页面中特定的局部内容。增量式爬虫检测网站中数据更新的情况。只会抓取网站中最新更新出来的数据。2.robots.txt协议君子协议。规定了网站中哪些数据可以被爬虫爬取哪些数据不可以被爬取。3.常用请求头信息User-Agent:请求载体的身份标识Connection:请求完毕后,是断开连接还是保持连接4.常用响应头信息Content-Type:服务器响应回原创 2021-12-06 15:18:37 · 548 阅读 · 0 评论 -
去哪儿旅行,景点热度排行爬取案例
本案例对旅游景点的热度,点评数量,排行等进行了爬取,后期数据处理部分还有提高空间,请读者自行编写。# -*- coding: utf-8 -*-"""Created on Wed Apr 3 17:48:21 2019@author: iHJX_Alienware"""import requestsfrom bs4 import BeautifulSoupimport nu...原创 2019-04-12 09:44:01 · 2135 阅读 · 4 评论 -
XPath Helper使用教程(转载)
主要描述chrome中的xpathhelper插件的安装与使用方法https://blog.csdn.net/Cayny/article/details/81396711 点击查看原创 2019-04-03 08:07:33 · 3358 阅读 · 0 评论 -
selenium之 定位以及切换frame(iframe)
https://blog.csdn.net/huilan_same/article/details/52200586转载 2019-04-03 18:26:59 · 236 阅读 · 0 评论 -
经典爬虫学习(一)-百度贴吧爬取案例
本案例使用传统的request库对百度贴吧进行多页面标题信息爬取,为经典的get访问格式,值得读者细看。# coding=utf-8import requestsclass TiebaSpider: def __init__(self, tieba_name): self.tieba_name = tieba_name self.url_temp ...原创 2019-04-03 19:51:20 · 241 阅读 · 0 评论 -
经典爬虫学习(二)-猫眼电影排行爬取
本案例也是一个经典的request模块信息爬取的案例,在本项目中实现了页面的跳转,读者可以自行审查网页学习,最终形成了txt格式的详细信息。import jsonimport requestsfrom requests.exceptions import RequestExceptionimport reimport timedef get_one_page(url): t...原创 2019-04-03 20:39:15 · 519 阅读 · 0 评论 -
爬虫Scrapy框架学习(七)-传统scrapy框架模拟登陆实现(精品)
本案例中主要讲述三种不同方式的scrapy框架模拟用户登陆方式。人人网案例-采用传统cookies设置方式进行模拟登陆。post表单请求方式(自行定位表单位置)post方式调用scrapy.FormRequest.from_response函数进行自动定位表单方式进行模拟登陆.1.案例框架结构2.案例模拟登陆界面以及cookies获取界面3.三种爬虫文件1.人人网案例-...原创 2019-03-31 21:15:33 · 312 阅读 · 0 评论 -
爬虫Scrapy框架学习(六)-腾讯招聘网站台爬取案例-深究CrawlSpider类在项目中的具体功能
在本案例中将对传统Spider类和CrawlSpider在实际项目中的应用进行对比,所完成的功能为一样的结果,采用三种不同的方式进行代码编写,请读者自行学习。传统Spider实现数据爬取CrawlSpider实现数据读取(网站解析有问题暂时不能够实现)和页面跳转CrawlSpider实现单一页面跳转并采用传统scrapy方式进行数据爬取功能1.项目框架展示2.爬取数据网站展示3...原创 2019-03-31 20:55:16 · 487 阅读 · 0 评论 -
爬虫Scrapy框架学习(五)-东莞阳光热线问政平台爬取案例
本案例通过典型的scrapy框架Spider类展现了一个模板式的爬虫过程,请读者细细体会,此案例为必会项目,按照本博客配置,完美通过.本文还对item做了限制,编写item文件的主要作用是防止爬取数据存入子字典中的键值命名错误.1.项目框架展示2.爬取页面展示3.yg.py文件# -*- coding: utf-8 -*-import scrapyfrom yangguang.it...原创 2019-03-31 20:39:10 · 867 阅读 · 0 评论 -
关于selenium打开谷歌浏览器时地址页显示空白的解决办法(精品)
这种情况是selenium对应的chormedriver.exe驱动的版本与谷歌浏览器的版本不对应造成的,解决方法很简单,下载对应版本的chormedriver.exe放到工程下即可。对应版本参考,之后的版本依次类推即可,比如我的谷歌版本是v69那么我需要下载的chormedriver.exe版本就是2.42的版本对应版本参考驱动下载地址搞定了,是不是很简单呢!...原创 2019-03-19 21:48:52 · 7853 阅读 · 0 评论 -
使用python实现百度图片爬取(带关键词推荐)
使用python实现百度图片爬取import reimport requestsfrom urllib import errorfrom bs4 import BeautifulSoupimport osnum = 0numPicture = 0file = ''List = []def Find(url): global List print('正在检测...原创 2019-03-19 20:06:57 · 1197 阅读 · 4 评论 -
经典爬虫学习(三)-传统request模块实现三种不同方式模拟登陆人人网(精品)
本案例中通过三种不同方式对人人网进行模拟登陆,是传统模拟登陆的经典案例,请读者认真查阅。设置session的方法进行模拟登陆将cookies包含在headers内进行模拟登陆单独指定cookies方式进行模拟登陆1.设置session的方法进行模拟登陆(需要指定登陆账户密码)# coding=utf-8import requestssession = requests.sess...原创 2019-04-03 20:47:03 · 375 阅读 · 0 评论 -
python中selenium常用操作
# coding=utf-8from selenium import webdriverimport time#实例化一个浏览器driver = webdriver.Chrome()# driver = webdriver.PhantomJS() #没安装运行不了#设置窗口大小driver.set_window_size(1920,1080)#最大化窗口driver.max...原创 2019-04-03 20:55:25 · 189 阅读 · 0 评论 -
selenium实现获取iframe子窗体并点击元素进行模拟登陆
本案例可以搭配后续的time.sleep()函数进行程序暂停几秒钟来实现滑动验证码的手动确认(对滑动验证码暂时没有涉猎)selenium中爬取的源码为加载完js以后的网页内容,可以实现方便快捷的爬取当前页面信息# coding=utf-8from selenium import webdriverimport timefrom selenium.webdriver.common.by...原创 2019-04-03 20:59:39 · 2071 阅读 · 0 评论 -
爬虫Scrapy框架学习(二)
深入了解setting.py文件(附整个setting文件内容-已做批注)# -*- coding: utf-8 -*-# Scrapy settings for yangguang project## For simplicity, this file contains only settings considered important or# commonly used. You...原创 2019-03-27 10:59:24 · 129 阅读 · 0 评论 -
经典爬虫学习(四)-selsenium实现斗鱼直播房间信息爬取
本案例中通过两种不同的selenium作用实现了对斗鱼直播平台的房间信息进行多页爬取。selenium实现信息爬取以及页面跳转功能selenium实现页面跳转功能,lxml解析库实现数据爬取功能1.selenium实现信息爬取以及页面跳转功能# coding=utf-8from selenium import webdriverimport timeclass DouyuSp...原创 2019-04-05 08:28:24 · 1145 阅读 · 0 评论 -
爬虫Scrapy框架学习(三)-爬取苏宁图书信息案例
爬取苏宁图书案例1.项目文件架构2.爬取数据网页页面3.suning.py文件# -*- coding: utf-8 -*-import scrapyfrom copy import deepcopyimport reclass SuningSpider(scrapy.Spider): name = 'suning' allowed_domains = ['s...原创 2019-03-31 20:08:30 · 1134 阅读 · 1 评论 -
爬虫Scrapy框架学习(四)-中国保险监督委员会爬取案例
本案例使用的框架为CrawlSpider框架,与传统Spider框架相比能够快速的实现页面跳转的功能,且本案例描述了随机替换User-Agent的“反反”爬虫思想,值得读者细心研究。使用scrapy genspider –t crawl cf “circ.gov.cn”创建爬虫1.项目框架展示2.项目爬取网页展示3.cf.py文件# -*- coding: utf-8 -*-i...原创 2019-03-31 20:24:36 · 1529 阅读 · 1 评论 -
爬虫Scrapy框架学习(一)
首先要学会如何构造一个Scrapy爬虫项目,在windows环境下,在命令行内输入scrapy startproject 项目名称来创建一个Scrapy项目然后使用scrapy genspider itcast "itcast.cn”来生成一个爬虫,其中itcast为爬虫名,后面的网址为限制爬虫的范围,这样就不会存在爬取其他网址从而获取杂乱信息的现象发生。运行爬虫框架的命令行指令为...原创 2019-03-21 16:37:36 · 204 阅读 · 0 评论