排序:
默认
按更新时间
按访问量

微博爬虫,单机每日千万级的数据 && 吐血整理的微博爬虫总结

前言 此前我发布了一篇博客微博爬虫,每日百万级数据,并且把代码开源在了Github上,然后就有很多人联系我,也有公众号转载了这篇文章。 不过对于微博爬虫,我还是心虚的,因为没有解决了账号池的问题,所以每天百万级的数据,是有水分的。单单爬好友关系,这种简单数据可以达到百万级,如果爬关键词搜索的微...

2018-07-27 17:54:57

阅读数:593

评论数:2

微博爬虫,每日百万级数据

前言新浪微博绝对是一个巨大的,实时的语料库!对微博数据爬取和分析,有重大的意义。 比如,现在要调查工商银行的服务态度,就可以抓取微博内容中包含工商银行的微博语料,然后做情感分析,就可以得到用户对银行服务的满意程度。再比如,最近火热的明星鹿晗,可以抓取鹿晗的粉丝信息,分析这些粉丝处于什么年龄段...

2017-11-01 15:58:28

阅读数:8704

评论数:15

千万级微博语料数据整理

数据说明 整理了千万级的微博数据,可以做各种微博语料分析,字段非常丰富 数据最终是一个json文件,每一行都是一个小的json { "_id": { "$oid": "5a6...

2018-01-27 14:53:55

阅读数:2051

评论数:0

Ubuntu空间不足清理

前言 Ubuntu 报错 No space left on device 说明磁盘空间占满了,所以就需要找到是什么文件占用了磁盘,并且删除它. 方案 1 首先通过命令 df -a 显示目前在Linux系统上的文件系统的磁盘使用情况统计 可以看到是/目录占用情况最大 2 进入...

2018-07-04 11:22:46

阅读数:181

评论数:0

社交数据抓取系统

系统简介 根据关键词对主流舆情网站进行数据抓取. 网站包括:weibo,facebook,twitter,YouTube 用途 当然是对这些主流网站做舆情监控和分析啊!!! 比如你想了解工商银行的服务态度,直接去抓取提到了工商银行的微博语料(文本,图片,视频),然后基于这些语料做情感...

2018-05-21 11:09:14

阅读数:301

评论数:0

proxypool:自动抓取检测爬虫IP代理,并提供实时开放的WebAPI

欢迎Star/Fork,https://github.com/SimpleBrightMan/proxypoolproxypoolproxypool是一个自动抓取免费代理并检测入库的程序,并提供开放的实时API服务:proxypool-open-WebAPI使用本项目采用python3进行开发,建...

2017-10-17 22:27:07

阅读数:1210

评论数:0

VPS自建爬虫代理服务

前言爬虫原先一直想用免费的代理,但是实践表明,免费的东西,质量就是很差的.恰好手上有好几台VPS,所以想自己搭建一个代理,这个自建的代理肯定就是好用的!具体的方法是采用squid来搭建代理.方法安装squidapt-get update apt-get install squid3安装密码服务网络...

2018-04-09 15:26:49

阅读数:728

评论数:1

给爬虫加上Shadowsocks代理

起源遇到抓取一个境外的网站,浏览器可以正常访问,但是requests请求却一直被拒绝了!折腾了好久,才发现,关了Shadowsocks浏览器也不能访问!原来,这个站点直接屏蔽了国内的IP所以,得给爬虫加上Shodowsocks的代理,科学爬虫!步骤装个包在requests中采用socks代理需要先...

2018-01-26 18:16:51

阅读数:1666

评论数:0

教务系统爬虫

正方教务系统助手The helper of ZhengFang System 项目地址:https://github.com/SimpleBrightMan/ZhengFang 欢迎fork,star! 详细分析参见:http://blog.csdn.net/nghuyong/article/...

2016-08-14 10:48:22

阅读数:7816

评论数:1

构建爬虫代理池

proxypoolproxypool是一个自动抓取免费代理并检测入库的程序,并提供开放的实时API服务:proxypool-open-WebAPI使用本项目采用python3进行开发,建议使用virtualenv# 下载源码 git clone https://github.com/SimpleB...

2017-11-01 15:56:58

阅读数:8774

评论数:5

异步爬虫

异步爬虫以往写爬虫就是单进程单线程,假设要爬取100哥页面,就是一个循环挨个爬。但是要执行下面一条抓取,就需要等待网络IO请求执行完毕,所以效率就不高了。 一开始处理的数据不大,还意识不到,如果要爬取上万个页面,差距马上就能凸显了。 所以爬虫必须要并发执行,异步编程。 在python中并发编...

2017-10-09 23:15:14

阅读数:387

评论数:0

logging模块,还在使用print打印?

为什么使用日志使用日志来看程序的输入,相比于print,多了一个层级的概念。并且可以将不同层级的日志信息,进行不同的处理。比如正常的debug信息,就可以正常记录到log文件中,供以后日志挖掘使用。critical级别的可能就需要发送一封邮件给运维人员,及时提醒。日志的级别日志一共分成5个等级,从...

2017-10-02 23:05:14

阅读数:453

评论数:0

test

//判断是否为素数 bool is_prime(int x){ int j=2; while (j*j<=x){ if (x%j==0) return false; j++; } return true;...

2017-03-25 16:14:37

阅读数:280

评论数:0

动态规划

dp问题,关键是寻找到递推关系式。 主要也就是几类核心问题,可统一整理。最长递增子序列从一个整的序列中,取出一个子序列,使其能够保持递增的性质 F(1)=1; F(i) = max{1,F[j]+1|j#include<iostream> #include<cstdio&g...

2017-06-29 12:23:52

阅读数:186

评论数:0

递归

在宏观上把握一件事情 并且明确跳出递归的条件 经典问题:汉诺塔

2017-06-27 21:14:51

阅读数:140

评论数:0

搜索问题整理

搜索问题主要就是DFS与BFS,要明确什么情况下用哪一种方法。DFSDFS基本就是全部都遍历一遍,时间高,通过递归实现算法。 一定要考虑剪枝! 采用情况:要输出所有的解,或者通过所有的解要判断是否可能符合题意。 常见的剪枝:路径剪枝,奇偶剪枝 在hdu上的题目包括:1016;1010;BF...

2017-02-10 18:12:43

阅读数:225

评论数:0

拓扑排序

先判断能否进行拓扑排序,本质就是检查是否存在环 统计入度的情况,将入度为0的,加入队列中。#include<iostream> #include<cstdio> #include<vector> #include<queue> using name...

2017-06-27 15:30:20

阅读数:159

评论数:0

最小生成树(MST)

Kraskal算法1.初始所有节点都独立 2.按照边的权值递增遍历所有的边,若遍历到的边上的两个点,分属在不同的集合,则这条边就是最小生成树上的一条边,并将这两个顶点合并。 3.如果出现集合数量只为1个,说明最小生成树已经构成。如果遍历完所有的边,集合还大于1个,说明原图不连通,最小生成树不存...

2017-04-15 16:13:51

阅读数:212

评论数:0

并查集

集合判断两个点是不是在一个集合里面 检查图中有多少个孤立节点 很多问题都可以抽象为集合问题代码在合并两个树的同时,进行路径压缩。让所有的节点指向根节点。#include <iostream> using namespace std; int Tree[1001]; int N=10...

2017-04-15 13:43:40

阅读数:158

评论数:0

哈夫曼树

哈夫曼树哈夫曼树是带权路径长度WPL(Weighted Path Length)最小的二叉树,也是最优二叉树。哈夫曼树的构造,选出最小的和次小的节点合并权值形成新的节点,再重复。有一个重要结论:最小带权路径长度为非叶子结点的和 求解最小带权路径长度为了方便的得到两个最小的节点,使用优先队列来实现,...

2017-04-02 12:13:57

阅读数:510

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭