2016年09月_六尘

原创 Python爬虫实例三

实例要求：爬取58同城10页的商品链接，以及链接网页的商品详细信息，如下图：存在的问题： 1.如图： categories = soup.select('span.crb_i > a')list(categories[2].stripped_strings)2.有的有原价，有的无，即某一个标签不一定总是存在，所以需要判断： list(primecosts[0].stripped_

2016-09-22 20:44:22 496

原创 Python爬虫实例二

实例要求：爬取网站图片并且将图片下载下来原本是下这个网站的图片： http://weheartit.com/inspirations/taylorswift 然而，网速感人，实在是下不下来，因此换成了knewone网站： https://knewone.com/discover下载前十页，这十页并非普通翻页，而是通过异步加载实现下拉显示页面，所以本例重点是异步加载数据的爬取。爬去代码如

2016-09-19 18:08:37 412

原创 Python爬虫实例一

实例要求：爬取小猪短租的房源链接以及每条房源链接的详情详情爬取信息要求如下图：爬取代码如下：from bs4 import BeautifulSoupimport requestsimport timeurls = ['http://bj.xiaozhu.com/search-duanzufang-p{}-0/'.format(str(i)) for i in range(1,14

2016-09-19 15:29:43 745

原创 Linux上本地使用LTP——ltp4j的使用

由于要处理大量文本，所以使用LTP－CLOUD的REST API方式来处理文本效率实在很低，而且由于网络原因经常出错。好在LTP可以在本地使用，下面就介绍如何在Linux系统下进行安装配置。MacOS上没有编译成功，所以暂时不提。一.环境：本人系统：centOS 7 JDK版本：JDK 1.7二 .步骤： //下载 LTP下载：https://github.com/HIT-SCIR/l

2016-09-05 17:09:24 5497 7

原创 HBase协处理器

一．协处理器定义 HBase可以让用户的部分逻辑在数据存放端及HBase服务端进行计算的机制（框架），协处理器允许用户在hbase服务端上运行自己的代码。二．协处理器的分类 1.从加载角度来分类：系统协处理器：配置好配置文件，完全导入，全局使用协处理器表协处理器：用户可以指定某一张表使用协处理器 2.从功能角度来分类 Observer协处理器：相当于关系型数据库中的触发

2016-09-04 15:38:32 1088

原创 LTP资料

LTP本地使用 http://ltp.readthedocs.io/zh_CN/latest/index.html 最新相关博客：http://blog.csdn.net/churximi/article/details/51174182

2016-09-02 22:48:01 401