- 博客(1)
- 资源 (20)
- 收藏
- 关注
原创 使用Spark SQL 探索“全国失信人数据”
“全国法院失信被执行人名单”,网址:http://shixin.court.gov.cn/,可供查询,用于惩罚失信人员。数据量有100多万,也算是大数据了。其中身份证号已被处理,并不能直接看到全部号码。本人承诺不将此数据用于非法用途和不正当用途,仅作为个人学习数据处理分析的数据源,不针对任何个人和组织。数据字段如下: 被执行人姓名/名称 性别 年龄 身份证号码/组织机构代码
2015-09-04 15:06:34 2694
实时分析-分析和可视化流数据的技术
Real-Time Analytics: Techniques to Analyze and Visualize Streaming Data
实时分析-分析和可视化流数据的技术.pdf
包括Storm、samza、kafaka、flume等技术.
2015-02-09
水木清华社区招聘信息定时抓取,部署于新浪云
水木清华社区招聘信息抓取并存入数据库,每一小时自动更新一次。
水木的招聘信息更新频繁,但是访问速度实在是很慢,于是就想不如把数据抓下来。
后面可能添加别的招聘网站的数据。
使用了Jsoup抓取和解析页面数据,MySQL存储数据。
可以部署在SAE上面,具体可移步至:huntinfo.sinaapp.com
2014-06-02
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人