自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

原创 全网微博数据每日亿级实时采集

前言 做微博数据抓取有很长一段时间了,最近把这样任务做到了极致。 简单的说,就是,现在全网任何活跃用户发送的一条微博,能够实时抓取到并存入本地数据库。 这项工作对微博网络舆情的监控预警,有非常重大的意义. 下面是针对这项工作的测试数据,已经可以达到对于全网5.5千万活跃用户的实时微博采集。 如果对...

2018-12-21 13:28:09 7930 8

原创 (Gitchat备份)微博爬虫,单机每日千万级的数据 && 吐血整理的微博爬虫总结

前言 此前我发布了一篇博客微博爬虫,每日百万级数据,并且把代码开源在了Github上,然后就有很多人联系我,也有公众号转载了这篇文章。 不过对于微博爬虫,我还是心虚的,因为没有解决了账号池的问题,所以每天百万级的数据,是有水分的。单单爬好友关系,这种简单数据可以达到百万级,如果爬关键词...

2018-07-27 17:54:57 26985 35

原创 千万级微博语料数据整理

数据说明 整理了千万级的微博数据,可以做各种微博语料分析,字段非常丰富 数据最终是一个json文件,每一行都是一个小的json { "_id": { &am...

2018-01-27 14:53:55 10853 4

原创 微博爬虫,每日百万级数据

前言新浪微博绝对是一个巨大的,实时的语料库!对微博数据爬取和分析,有重大的意义。 比如,现在要调查工商银行的服务态度,就可以抓取微博内容中包含工商银行的微博语料,然后做情感分析,就可以得到用户对银行服务的满意程度。再比如,最近火热的明星鹿晗,可以抓取鹿晗的粉丝信息,分析这些粉丝处于什么年...

2017-11-01 15:58:28 22072 19

原创 教务系统爬虫

正方教务系统助手The helper of ZhengFang System 项目地址:https://github.com/SimpleBrightMan/ZhengFang 欢迎fork,star! 详细分析参见:http://blog.csdn.net/nghuyong/article/...

2016-08-14 10:48:22 11586 3

原创 Django-Restful框架

1.准备工作 安装django框架 安装django-rsetful 框架 pip install djangorestframework2.一个小demo2.1创建django工程 django admin startproject restful django admin st...

2016-04-28 22:48:55 16327 1

原创 Ubuntu空间不足清理

前言 Ubuntu 报错 No space left on device 说明磁盘空间占满了,所以就需要找到是什么文件占用了磁盘,并且删除它. 方案 1 首先通过命令 df -a 显示目前在Linux系统上的文件系统的磁盘使用情况统计 可以看到是/目录占用情况最大 2 进入...

2018-07-04 11:22:46 14686 0

原创 异步爬虫

异步爬虫以往写爬虫就是单进程单线程,假设要爬取100哥页面,就是一个循环挨个爬。但是要执行下面一条抓取,就需要等待网络IO请求执行完毕,所以效率就不高了。 一开始处理的数据不大,还意识不到,如果要爬取上万个页面,差距马上就能凸显了。 所以爬虫必须要并发执行,异步编程。 在python中并发编...

2017-10-09 23:15:14 1066 0

原创 logging模块,还在使用print打印?

为什么使用日志使用日志来看程序的输入,相比于print,多了一个层级的概念。并且可以将不同层级的日志信息,进行不同的处理。比如正常的debug信息,就可以正常记录到log文件中,供以后日志挖掘使用。critical级别的可能就需要发送一封邮件给运维人员,及时提醒。日志的级别日志一共分成5个等级,从...

2017-10-02 23:05:14 2304 0

原创 常用的推荐算法小结

推荐系统的必然互联网发展到现阶段,信息已经不是匮乏,而是爆炸。所以良好的用户体验就是把用户喜欢的,感兴趣的从大量的数据中筛选出来,再呈现给用户,实现千人千面的效果。所以推荐系统的出现就是必然了,他可以推荐每个用户感兴趣的产品,同时也将每个产品呈现到感兴趣的用户面前。实现用户和产品的双赢。推荐系统架...

2017-04-11 23:40:34 17695 0

原创 HTTPS与HTTP

HTTPS大创中做APP的后端,一个完整的rest框架,要求数据传输采用https协议。因为客户端与后端直接会涉及用户的私密用户数据,而采取http协议实际上就是明文传输,这是不能接受的。 而HTTPS并非是应用层的一种新协议. 只是HTTP通信接口部分用SLL(Secure Socket La...

2017-04-11 20:45:46 333 0

原创 DES加密

DESDES属于第一种对称加密技术 DES(数据加密标准)算法主要采用替换和移位的方式进行加密, 用56位(64位密钥只有56位有效)对64位二进制数据块进行加密, 每次加密对64位的输入数据进行16轮编码, 经过一系列替换和移位后, 输入的64位原数据转换成完全不同的64位输出数据。流...

2017-03-25 15:05:15 332 0

原创 RSA加密

RSARSA是非对称秘钥加密。用公钥加密,私钥解密。反之亦可。   (1)乙方生成两把密钥(公钥和私钥)。公钥是公开的,任何人都可以获得,私钥则是保密的。   (2)甲方获取乙方的公钥,然后用它对信息加密。   (3)乙方得到加密后的信息,用私钥解密。 解决了对称加密中秘钥传输的问...

2017-03-25 14:38:39 1045 0

原创 Clean Code 读书笔记

整洁代码 勒布朗法则: 稍等等于永不 (Later equals never) 程序一开始就要好好写,不要想着以后来维护 保持代码的整洁,不但关乎效率,还关乎生存 读与写时间的比例超过10:1。写新代码的时候,我们一直在阅读旧的代码。 童子军军规:让营地比你来的时候更干净。 有意义的命...

2017-02-19 13:14:47 485 0

原创 Django连接远程数据库

前言项目需要,数据库只有一个,在阿里云上。不采用原先的Sqlite3数据库,采用搭在阿里云上Mysql。这样开发的时候避免仓库中含有数据库文件,数据不能统一。所以需要在Django中配置远端Mysql数据库。 这样数据库始终只有一个!安装Mysql数据库在阿里云上安装Mysql数据库,步骤很简单...

2017-01-21 00:36:32 6051 1

原创 GitHook实现Django自动化部署

前言项目中Django自动化部署的要求是:master分支,push了新的commit,需要自动拉去最新的代码,重启uwsgi,直接部署新版本上线。通过日志文件远程监控部署状态。原来一直寄托与github的webhook来实现,但是这种第三方推送,自己服务器还需要单独开一个webhook服务单独跑...

2017-01-19 13:25:39 2472 0

原创 阿里云 ubuntu 部署hexo,并与本地同步,实现自动部署

前言用hexo搭建博客时看了很多教程,大部分都是讲怎样部署到Github Pages,但是Github Pages有时候访问有问题,就想直接部署在阿里云的ECS(操作系统为ubuntu)上,经过半天的搜索和摸索,找个一个比较好的方法。基本思路有两种方法 1. 在阿里云主机上执行hexo ser...

2017-01-14 23:26:36 3518 1

原创 Django在生产环境中的部署

基本思路 方案:Nginx+uwsgi 这样大体的流程是:nginx作为服务器最前端,负责接收client的所有请求,统一管理。静态请求由Nginx自己处理。非静态请求通过uwsgi传递给Django,由Django来进行处理,从而完成一次WEB请求。 通信请求 the web client ...

2017-01-05 00:44:40 15050 1

原创 Selenium使用小结

本篇博客记录在使用Selenium过程中遇到的问题。action的使用对于有的超链接,并不能通过获取元素后使用.click()来模拟点击。 需要使用action来进行模拟,完全模拟人的行为,即先移动鼠标到元素上面,在模拟点击! 以点解网页中常见的下一页为例:nextpage = driver....

2016-10-21 16:22:55 287 0

原创 爬虫利器:Selenium+PhantomJS

Selenium是一个可以真实模拟浏览器运作的工具。 需要下载selenium.exe文件和安装selenium包。下面是一个简单的模拟访问百度,并点击进入python官网的例子。# coding=utf-8 from selenium import webdriver from seleniu...

2016-10-20 21:07:20 617 0

转载 python利用cookie登录网站进行访问

详见Python利用Cookie登陆

2016-10-19 20:55:39 698 0

原创 Ubuntu下Django的部署

先查看是否占用80端口:lsof -i:80 如果占用: 通过kill PID来杀死进程下面再根目录下测试: python manage.py runserve 0.0.0.0:80

2016-10-12 15:09:08 256 0

原创 插入排序及其优化

构造排序基础类BaseSort.javapackage sort;import edu.princeton.cs.algs4.StdOut;public class BaseSort { //比较 public static boolean less(Comparable a , ...

2016-09-24 17:06:49 498 0

原创 Spyder配置

说明入科学计算的坑,人生苦短,还是用python吧。 目前比较好的环境还是Winpython,下载完成后,默认装好了三大包!numpy,pylab, scipy。当然还有pandas了。 关键是,里面自带了一个Spyder的小ide,类似于matlab,内嵌ipython,交互式写代码,有工作...

2016-08-04 19:25:58 53105 6

原创 Mupad使用小结

Mupad是什么? Mupad是Matlab的一个工具箱,在Matlab下通过命令mupad即可进入 Mupad可以做一个超级计算器、化简,解微分方程,画图像!总之,一切数学相关的都可以,而且非常优雅! Mupad的具体使用1.作为一个计算器 注:% 上一个运算结果 %2倒数第二此运算结果,以此...

2016-07-10 21:04:33 18012 2

提示
确定要删除当前文章?
取消 删除