- 博客(7)
- 收藏
- 关注
原创 矛盾爬虫法
矛盾爬虫法爬虫界萌新一枚,技术交流可加微信:694671800,并注明从哪里看到的。引言:第一次使用这种方式,是在一个机缘巧合之下偶然尝试出来的,经过多次尝试,发现对于极少网站有奇用,如果下文内容对于某些网站产生了不好的影响,可联系作者,谢谢~。矛盾爬虫法的起源矛盾爬虫法顾名思义就是关于矛和盾的故事,最初的起源,是我去请求某个网站的数据,因为目标网站请求数据是需要积分的,我在一个神秘的角落...
2019-11-14 10:24:02 175
原创 mongo和redis的一些小操作
mongo和redis的一些小操作在使用mongo和redis的时候经常会涉及到很多操作,在这里记录一下mongoMongoDB文件导出模板mongoexport --host 172.16.63.31 --port 27017 --collection tg515 --db baidu_zp --out zp_tuoguan.json2.特定元素筛选查看模板db.tg515.fi...
2019-05-16 14:52:51 238
原创 突然打不开mongodb如何处理
博主在使用mongo时经常会出现打不开的情况,目前遇到最多的解决方案如下: 1. sudo mongod 然后再输入mongo启动 2. 如果上面的方式成功不了, 那就尝试方法2. 首先进入data 然后进入db (data是和home在一块的)可以看到有一个叫做mongod.lock的文件 此时输入 sudo rm -rf mongod.lock 删除此文件 接着重复方法1 ...
2018-08-14 16:00:53 2285
原创 mongodb最常用的几个操作
mongo 启动mongo sudo mongod 打不开用这个 show dbs 查看全部数据库 use + 数据库名 运用该数据库db.dropDatabase() 删库跑路 db.数据集名称.count() 查看数据集有多少条数据 db.数据集名称.find() 查看数据集具体数据 db.getCollectionNames() 查看所有的聚集集合...
2018-08-14 15:47:11 192
原创 进阶的爬虫3——百度翻译进阶版(中英文自动识别翻译)
首先第一步开始准备工作# coding=utf-8import requestsclass Fanyi: def __init__(self): pass def run(self): passif __name__ == '__main__': pass第二步梳理业务逻辑# 1.获取语言类型 ...
2018-05-26 20:47:15 534
原创 进阶的爬虫2——百度翻译中英互转
爬取百度翻译 首先我们打开网页端,通过检查找到翻译的时候是通过v2transapi响应翻译结果的 然后我们查看url和data 通过我们用不同的词对比发现data 里面sign和transtype这两个是不同的,而且sign的不同很有可能是随机数,不太容易找到规律,所以我们尝试用手机端看看有没有区别,有没有可能更好爬取。 我们打开手机端后发现确实手机端并没有那么复杂,...
2018-05-26 19:08:02 846
原创 进阶的爬虫系列 ——不得不说的贴吧爬取术
进阶的爬虫系列——不得不说的贴吧爬取术感谢各位能点开我的这篇博文,才开始写,这个算是很简单的爬虫,文中如有错误和不足欢迎各位大神多多包涵指正,大家的建议是我不断前行的动力,废话不多说我们直接进入主题。目标:爬取贴吧数据 步骤: 首先我们进入百度贴吧的页面,通过进入不同的贴吧以及翻页解析其url的变化规律 通过观察我们可以看出 “kw=”的后面是接的贴吧的名...
2018-05-23 23:13:43 7779 2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人