- 博客(7)
- 资源 (3)
- 收藏
- 关注
原创 solr 全文搜索引擎学习step_02 创建中文分词
首先solr默认的是英文分词:对中文的分词是非常不友好的:一个字一个字的分词观察你建的wenda项目的配置文件发现他分词的原理:type为text_general为英语通用文本,也就是按空格分词,创建一个自己的中文分词的索引字段:<field name="question_title" type="text_ik" indexed="true" stored="true" multiValu...
2018-05-10 09:49:12 196
原创 solr 全文搜索引擎学习step_01 基本了解
solr的原理图:本次采用solr-6.2.0版本下载地址:http://archive.apache.org/dist/lucene/solr/下载解压后如图:bin目录:各种启动类文件,contrib:相依赖的jar包dist:各种各样的solr发布的jar包docs:文档example:自带的几个例子启动建一个服务:默认开启两个分片:8983端口和7574端口默认对中文的分词是很不好的,把每...
2018-05-09 11:34:14 147
原创 爬虫学习 step_05 爬取的数据放入数据库
采用的是mysql-connector驱动:db = mysql.connector.connect(user='root', password='******', database='luntan', charset='utf8') #初始化一个数据库对象mysqldb驱动的话为:db = MySQLdb..connect(user='root', password='******', data...
2018-05-06 17:38:55 608
原创 爬虫学习 step_04 创建一个爬虫
在网页端create一个爬虫: 爬取v2ex网站分析v2ex网站:首先有不同的栏目,技术、创意等等,每个栏目下面还有子节点程序员、python等等,节点点开后就是一些分页的问题如图:所以首要任务是找到技术,创意,等这一类顶层节点,然后把程序员、python这样的小层节点找出来,然后相应的版块就出来了,然后爬相应板块的问题,然后翻页再找所有的问题创建一个爬虫:自动写好一个框架:分析后标签元素后,先去...
2018-05-06 16:45:20 207
原创 爬虫学习 step_03 爬虫相关文件配置
爬虫的启动可以带参数启动,带自己配置的参数文件,比如指定端口号,username,password,代理等注意:把配置文件conf.json放在项目文件所在环境的pyspider文件夹下,然后打开命令行cmd,输入命令:pyspider -c conf.json配置文件代码:{ "message_queue": "redis://127.0.0.1:6379/15", "webui": {...
2018-05-06 14:15:45 186
原创 爬虫学习 step_02 python连接MySQL
使用mysql-connectorpip install 来安装pip install mysql-connector说明:mysqldb与mysql-connector的区别 MySQLdb is a C module that links against the MySQL protocol implementation in the libmysqlclient libra...
2018-05-05 22:10:17 129
原创 爬虫学习 step_01 页面数据爬取
通过css选择器去解析下载的网页# -*- coding: utf-8 -*-from pyquery import PyQueryif __name__ == '__main__': q = PyQuery(open('resource/v2ex.html').read()) print q('title').text() # 找到代码里面是<t...
2018-05-05 21:48:51 118
solr-6.2.0
2018-05-10
lucene中文分词工具包
2018-05-10
SQLite可视化工具
2018-05-10
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人