- 博客(3)
- 资源 (15)
- 收藏
- 关注
原创 python爬虫初探
由于项目需要,需要抓取某些网站数据,抓取后收集用作大数据分析,展示,但是基于网站,网页的数据抓取,每次数据量不大,所以用python,go(本文用python).但是每个网站的编码格式也不一样,所以需要下载chardet 进行相应的网页编码格式进行解码,编码,避免进行手工判断.以下为抓取网页例子1.安装chatdet,此处为ubunt 安装,linux安装可以下载chardet-*.g
2017-12-23 13:54:21 332
原创 机器学习---K均值
1.K均值的步骤a.根据业务经验,尽量选取准确合理的质心b.然后对数据,即质点进行相应的聚合c.当质点进行聚合完毕后,或者达到指定的聚合标准阀值,算法结束d.若算發聚合完成后认为完全分组或未达到指定阀值.重复进行a,b步骤.2.K均值优缺点优点:算法易于理解,实现,速度快,可并行化,如spark 对应实现缺点:对质心进行硬性分析(非此即彼),无法进行后续的算法融
2017-12-21 10:21:05 369
原创 RSS源对应软件安装
1.下载对应的版本https://pypi.python.org/pypi/feedparser2.下载后使用root权限安装,因为对应的python要供所有python setup.py install 3.ubuntu 安装使用sudo代替root, sudo python setup.py install否则回报如下错误.权限不足running
2017-12-21 10:04:54 360
Flume 根据字段进行路由插入 ES
2019-04-26
验证码工程源码
2016-11-02
JDBC连接Oralce数据库驱动
2014-03-07
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人