自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 IO & IR 个人作业汇总——康熙

目录一, 信息组织读后感 (1)ICT环境下信息组织的任务与挑战——元数据的管理二, 爬虫报告 (1) robots协议分析—-以淘宝为例 (2) Python数据采集 - quotes (3) Scrapy框架抓取四川大学公共管理学院教师信息 (4) 八爪鱼爬取网页数据的简单使用三, 分词报告 (1)分词工具介绍与简单实例四, 文本解析报告 (1)Apache Tika格式转

2017-06-24 23:23:41 1798

原创 Solr+MMSEG4J的简单学习

目录solr介绍MMSEG4J介绍准备工具solr环境搭建分词方法与效果分析分词结果提交词云分析参考链接一,solr介绍Apache Solr 是一个开源的搜索服务器。Solr 使用 Java 语言开发,主要基于 HTTP 和 Apache Lucene 实现。Apache Solr 中存储的资源是以 Document 为对象进行存储的。每个文档由一系列的 Field 构成,每个

2017-05-22 22:45:48 376

原创 八爪鱼采集数据简单实例

八爪鱼爬取网页数据的简单使用 发布文章 已保存目录八爪鱼介绍八爪鱼实例一八爪鱼实例二八爪鱼介绍八爪鱼数据采集系统以完全自主研发的分布式云计算平台为核心,可以在很短的时间内,轻松从各种不同的网站或者网页获取大量的规范化数据,帮助任何需要从网页获取信息的客户实现数据自动化采集,编辑,规范化,摆脱对人工搜索及收集数据的依赖,从而降低获取信息的成本,提高效率。 八爪鱼爬取数据操作简单,可

2017-05-18 19:56:59 8214 1

原创 分词工具介绍与简单实例

目录ICTCLASIK AnalyzerPaodingMMSEG4JJieba相关链接ICTCLAS1.主要功能包括中文分词;词性标注;命名实体识别;新词识别;同时支持用户词典; 2.ICTCLAS3.0分词速度单机996KB/s,分词精度98.45%,API不超过200KB,各种词典数据压缩后不到3M,是当前世界上最好的汉语词法分析器。 系统平台:Windows 开发语言:C/

2017-05-18 19:16:03 619

原创 Apache Tika格式转换的简单使用

目录Apache Tika介绍Apache Tika实例一Apache Tika实例二Apache Tika实例三相关链接一,Apache Tika介绍Tika是一个内容分析工具,自带全面的parser工具类,能解析基本所有常见格式的文件,得到文件的metadata,content等内容,返回格式化信息。总的来说可以作为一个通用的解析工具。特别对于搜索引擎的数据抓去和处理步骤有重要意义。

2017-05-18 12:40:44 1387

原创 Scrapy框架抓取四川大学公共管理学院教师信息

目录项目要求准备步骤代码编写结果分析问题解析相关链接一,项目要求明确目标网址和items:我们要抓取的是四川大学公共管理学院教师主页128位教师信息,包括的item有name(x姓名),title(职称),dep(所属部系),email(邮件),img(图片)以及详情页面的decs(个人简介)明确分页处理的方法明确怎么获取详情页信息会使用xpath来编写数据路径二 , 准备步

2017-05-13 15:13:58 1027

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除