自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

六尘不改,独影阑珊

  • 博客(6)
  • 收藏
  • 关注

原创 Python爬虫实例三

实例要求: 爬取58同城10页的商品链接,以及链接网页的商品详细信息,如下图: 存在的问题: 1.如图: categories = soup.select('span.crb_i > a')list(categories[2].stripped_strings)2.有的有原价,有的无,即某一个标签不一定总是存在,所以需要判断: list(primecosts[0].stripped_

2016-09-22 20:44:22 496

原创 Python爬虫实例二

实例要求:爬取网站图片并且将图片下载下来 原本是下这个网站的图片: http://weheartit.com/inspirations/taylorswift 然而,网速感人,实在是下不下来,因此换成了knewone网站: https://knewone.com/discover下载前十页,这十页并非普通翻页,而是通过异步加载实现下拉显示页面,所以本例重点是异步加载数据的爬取。 爬去代码如

2016-09-19 18:08:37 412

原创 Python爬虫实例一

实例要求: 爬取小猪短租的房源链接以及每条房源链接的详情 详情爬取信息要求如下图: 爬取代码如下:from bs4 import BeautifulSoupimport requestsimport timeurls = ['http://bj.xiaozhu.com/search-duanzufang-p{}-0/'.format(str(i)) for i in range(1,14

2016-09-19 15:29:43 745

原创 Linux上本地使用LTP——ltp4j的使用

由于要处理大量文本,所以使用LTP-CLOUD的REST API方式来处理文本效率实在很低,而且由于网络原因经常出错。好在LTP可以在本地使用,下面就介绍如何在Linux系统下进行安装配置。MacOS上没有编译成功,所以暂时不提。 一.环境: 本人系统:centOS 7 JDK版本:JDK 1.7二 .步骤: //下载 LTP下载:https://github.com/HIT-SCIR/l

2016-09-05 17:09:24 5497 7

原创 HBase协处理器

一. 协处理器定义 HBase可以让用户的部分逻辑在数据存放端及HBase服务端进行计算的机制(框架),协处理器允许用户在hbase服务端上运行自己的代码。 二. 协处理器的分类 1.从加载角度来分类: 系统协处理器:配置好配置文件,完全导入,全局使用协处理器 表协处理器:用户可以指定某一张表使用协处理器 2.从功能角度来分类 Observer协处理器:相当于关系型数据库中的触发

2016-09-04 15:38:32 1088

原创 LTP资料

LTP本地使用 http://ltp.readthedocs.io/zh_CN/latest/index.html 最新相关博客:http://blog.csdn.net/churximi/article/details/51174182

2016-09-02 22:48:01 401

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除