爬虫
Feng_MuJin
往事一笔勾销,余生各自安好!
展开
-
爬取腾讯招聘信息写入TXT文件
""" 需求:爬取腾讯招聘数据(职位名称,职位类别,人数,地点, 工作要求,工作职责) url = "http://hr.tencent.com/position.php?&start=""""import requestsfrom lxml import etreeBASE_DOMAIN = "http://hr.tencent.com/"HEADERS =..原创 2018-10-19 13:38:59 · 1628 阅读 · 0 评论 -
python 通过线程池实现更快的爬虫
1. 线程池使用方法介绍 实例化线程池对象 from multiprocessing.dummy import Pool pool = Pool(process=5) #默认大小是cup的个数 把从发送请求,提取数据,到保存合并成一个函数,交给线程池异步执行 使用方法pool.apply_async(func) def exetute_requests_it...原创 2018-11-26 10:27:41 · 2326 阅读 · 0 评论 -
python 多线程多进程爬虫
单线程爬虫单线程的爬虫速度太慢,对应的我们可以使用多线程或者是进程版本来实现 举个例子,抓取糗事百科热门栏目下的十三个url地址的段子内容,地址: https://www.qiushibaike.com/普通面向对象版本# coding=utf-8import requestsfrom lxml import etreeclass QiubaiSpider: def ...原创 2018-11-26 10:25:54 · 1383 阅读 · 0 评论 -
python 监控CSDN博客访问量和排名写入excel
# coding=gbkimport requestsimport datetimeimport osimport xlwtimport xlrdfrom xlutils.copy import copyfrom bs4 import BeautifulSoup# 获取HTMLdef get_page_source(url): try: r = r...原创 2018-11-23 10:30:29 · 858 阅读 · 0 评论 -
爬虫框架开发(4)--- 项目实战——>新浪滚动新闻资讯实时数据采集
要求:存储文章的标题、作者、发布时间、正文、正文中的图片链接、文章链接、文章所属分类 根据网站的实时更新(周期1分钟)进行采集 时间格式保存为"yyyy-mm-dd HH:MM:SS" 存储到mysql数据库代码实现如下:新浪滚动的爬虫文件:# spiders/sina_gundong.pyimport timefrom scrapy_plus.core.spider ...原创 2018-11-22 20:13:16 · 2356 阅读 · 1 评论 -
爬虫框架开发(3)--- 框架功能升级
介绍前面的内容,我们实现了一个功能相对完善的爬虫框架,但是还不够强大,对于一些功能比如分布式,断点续爬等功能任然没有实现,那么接下来在框架功能升级这一部分,我们继续来完善框架内容分布式爬虫的支持 增量爬虫的设计支持 断点续爬的设计支持框架升级 -- 分布式爬虫设计原理及其实现 1. 实现方案利用redis实现队列注意pickle模块的使用:如果将对象存入redis中,...原创 2018-11-22 19:35:25 · 1088 阅读 · 0 评论 -
爬虫框架开发(2)--- 框架功能完善
框架完善 -- 日志模块的使用1. 利用logger封装日志模块在scrapy_plus目录下建立utils包 (utility:工具),专门放置工具类型模块,如日志模块log.py 下面的代码内容是固定的,在任何地方都可以使用下面的代码实习日志内容的输出# scrapy_plus/utils/log.pyimport sysimport logging# 默认的配置DEF...原创 2018-11-22 18:37:11 · 1062 阅读 · 0 评论 -
爬虫框架开发(1)--- 框架雏形实现
设计代码结构 首先给框架起一个名称,如: scrapy_plus 继续分类以及解耦的设计思想: 把核心模块放置在一起 请求对象模块和响应对象模块统一作为http模块 数据对象单独作为一个分类 代码结构如下: -- scrapy_plus -- __init__.py -- core -- __init__.py --...原创 2018-11-22 16:04:28 · 1056 阅读 · 0 评论 -
爬取链家租房数据,数据处理,进行可视化分析
lianjiaspider.pyimport asyncioimport aiohttpimport pandas as pdfrom lxml import etreeclass LianjiaSpider(object): def __init__(self): self._headers = { "User-Agent":...原创 2018-11-14 09:56:47 · 8213 阅读 · 2 评论 -
微信聊天机器人制作
""" 微信聊天机器人制作"""import itchatimport requestsKEY = '71f28bf79c820df10d39b4074345ef8c'def get_response(msg): # 这里我们就像在“3. 实现最简单的与图灵机器人的交互”中做的一样 # 构造了要发送给服务器的数据 apiUrl = 'http:/...原创 2018-11-15 19:09:43 · 1198 阅读 · 0 评论 -
BeautifulSoup爬取天气信息并发送给微信好友
""" BeautifulSoup爬取天气信息并发送给微信好友"""import datetimefrom wxpy import *from bs4 import BeautifulSoupfrom urllib import requestbot = Bot(cache_path=True) # 登陆网页微信,并保存登陆状态def send_message(co...原创 2018-11-15 19:07:18 · 1197 阅读 · 0 评论 -
BeautifulSoup爬取天气信息并发送至QQ邮箱
""" BeautifulSoup爬取天气信息并发送至QQ邮箱"""import smtplibimport urllib.requestfrom bs4 import BeautifulSoupfrom email.mime.text import MIMETexturl = "http://www.weather.com.cn/weather/101040100.sh...原创 2018-11-15 19:06:46 · 2359 阅读 · 0 评论 -
python 爬取微信公众号文章(selenium+webdriver)
""" 通过搜狗搜索中的微信搜索入口爬取微信公众号文章(selenium)"""import reimport osimport jsonimport timeimport requestsfrom pyquery import PyQueryfrom urllib.parse import quotefrom selenium import webdriverc...原创 2018-11-15 14:34:51 · 5077 阅读 · 0 评论 -
获取重庆空气质量历史数据写入csv文本
import reimport csvimport numpyimport codecsfrom bs4 import BeautifulSoupfrom urllib.request import urlopendef get_table_head(url): """ 该函数用于获取带表头的数据 """ html_bj = urlopen(url) bs...原创 2018-10-30 19:53:25 · 1634 阅读 · 0 评论 -
爬取电影《无双》影评数据,分析,可视化
一,爬取和存储影评数据import requestsimport jsonimport timeimport randomimport csvfrom datetime import datetime, timedeltadef get_headers(): user_agent_list = [ "Mozilla/5.0 (Windows NT 6....原创 2018-10-30 16:15:20 · 4643 阅读 · 1 评论 -
爬取腾讯招聘信息存入mongodb数据库
SpiderTencent.pyimport requestsfrom lxml import etreeimport timeimport pymongoimport randomclass SpiderTencent(object): def __init__(self): """ 初始化url 网页页码下标地址 ...原创 2018-10-19 13:48:22 · 1120 阅读 · 0 评论 -
打码平台的使用
1. 为什么需要了解打码平台的使用现在很多网站都会使用验证码来进行反爬,所以为了能够更好的获取数据,需要了解如何使用打码平台爬虫中的验证码2. 常见的打码平台 云打码:http://www.yundama.com/ 能够解决通用的验证码识别 极验验证码智能识别辅助:http://jiyandoc.c2567.com/ 能够解决复杂验证码的识别 3. 云打码的使用...原创 2018-11-26 10:33:40 · 1574 阅读 · 0 评论