自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 资源 (2)
  • 收藏
  • 关注

原创 在 mac 上安装 ChromeDriver

查看浏览器的版本下载对应版本的安装包https://chromedriver.storage.googleapis.com/index.html放在环境变量所在的路径中查看 mac 的环境变量:我就移动到其中的 /usr/bin 中了:不允许, 试试 /user/local/bin可以的。测试配置完成后,就可以在命令行下直接执行 chromedriver 命令了:如...

2019-12-31 17:43:56 309

原创 什么是XHR数据

如果我们爬取的数据是动态的, 就需要关注 XHR 数据。因为动态页面的原理就是通过原生的 XHR 对象发出 HTTP 请求,得到服务器返回的数据之后,再进行处理。XHR 会用于在后台与服务器交换数据。我们需要使用浏览器的插件查看 XHR数据,比如在 Chrome 浏览器中使用开发者工具。有时候,网页会使用 js 请求数据,那么只有 js 都加载完成之后,我们才能获取完整的 HTML 文件。XP...

2019-12-31 11:30:27 1450

原创 不编程的爬虫抓取工具

火车采集器网址: http://www.locoy.com/火车采集器已经有 13 年历史了,是老牌的采集工具。它不仅可做抓取工具,也可以做数据清洗、分析、挖掘已经可视化等工作。数据源适用于绝大多数的网页,网页中能看到的内容都可以通过采集规则进行抓取。八爪鱼网址: https://www.bazhuayu.com/八爪鱼也是知名的采集工具,它有两个版本,一个是免费的采集模板,还有一个是云...

2019-12-31 10:44:39 787

原创 scrapy + shedule: signal only works in main thread?

报错说明使用定时任务模块 shedule 跑 scrapy 爬虫程序, 报错:报错信息: signal only works in main thread改了个形式,运行完一次直接退出了:参考https://www.zhihu.com/question/53799671...

2019-12-30 16:56:49 760 1

原创 爬虫 js 时间戳处理

前后端对接的时候,最好使用同一的时间戳 ,这样两边的处理更加灵活。在爬虫项目中,当我们拿到了某个数据 item 的时间字段,有可能是以 js 时间戳的格式存储的。 我们在入库的时间需要做一定的准换,转换为 python 中的时间格式,进一步转换为适合插入 mysql 中的时间格式。首先我们检查下时间是否和页面显示时间一致:然后在 Python 程序中将这个时间戳转换为 datetime ...

2019-12-30 10:12:46 1971

原创 爬虫技巧 --图片文字混采,图片位置替换为 url 字符串

# -*- coding: utf-8 -*-import pprintimport requests as reqimport refrom bs4 import BeautifulSoupurl = "https://www.taoguba.com.cn/Article/2336826/1"content = req.get(url).texts_html = re.find...

2019-12-27 15:15:49 433

原创 东方财经财富号爬虫流程(4) -- ip 代理池组件

组件ip 代理组件作为一个单独的公共模块方便复用:ip 代理对象将每一个 ip 代理抽象为一个类:ProxyPool初始化爬取将 爬取 ip 的实现委托给 proxy_strategy (GetProxyStrategy 类的实例)。爬取并且定期的健康检查随机选取可用 ipGetProxyStrategy真正解析网站获取 ip 的类。 如果我们买了自己的 ip ...

2019-12-19 10:20:28 268

原创 东方财经财富号爬虫流程(3) --在项目中对于账号等敏感信息的处理

创建 .env 文件将 .env 设置为不提交读取 .env 配置为环境变量测试是否读到在 pycharm 等 IDE 中同样可以设置环境变量。更新时间: 2019-12-19

2019-12-19 10:07:46 222

原创 东方财经财富号爬虫流程(2) -- mongo 工具的创建

这一篇主要是用来做一些公共组件。mongomongo 数据库用来保存代理 ip;连接 mongo连接 mongo 具体数据库连接集合基本功能之插入数据完善配置信息以及测试不过,正式提交的时候在代码的页脚写测试最好是不要。更新时间: 2019-12-19...

2019-12-19 09:42:58 195

原创 东方财经财富号爬虫流程(1) -- 基本结构搭建

创建项目目录# 创建虚拟环境并且进入 $ workon dog # 查看是否创建成功 $ ls# 进入项目文件夹 $ cd EastMoneyBusiness# 初始化项目仓库 $ git init添加 git 相关文件主要是 对项目设置缓存模式设置不遵守 robots 协议创建爬虫# business 是爬虫文件以及爬虫项目的名称 # so.eas...

2019-12-18 18:45:29 238

原创 获取 mongo 中的最后一条记录

mongos> var last = db.Sstrategy.find().skip(db.Sstrategy.count() - 1).next()mongos> last['jsid']ObjectId("5de4cb63b9d29719ec8d9804")参考: https://stackoverflow.com/questions/4421207/how-to-get...

2019-12-03 10:43:01 2259 1

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除