- 博客(4)
- 资源 (13)
- 收藏
- 关注
原创 Scrapy爬虫抓取ZOL手机详情
前不久需要一批手机数据做测试,所以就爬取了ZOL上关于手机的各项参数,现在把代码分享出来,希望大家能够多提改进意见。ZOL手机信息想要抓取ZOL关于手机的信息需要三个步骤:手机商城列表页 —》单个手机详情页 ----》当前手机更多详情页面爬虫代码# -*- coding: gbk -*-from scrapy.spiders import CrawlSpiderimport scra...
2019-06-15 10:06:50 1069
原创 2750个通用停用词表整理,免费下载
中文停用词表下载一共2750个停用词,属于通用停用词表。下载地址:链接:https://pan.baidu.com/s/1u-Ob86VGVSk3vhnwf2S29w提取码:aoj4停用词表整理代码下载了很多网上的通用停用词表,同时合并了我们实验室的停用词表后使用下面的代码对停用词表整理:import osdef readfile(path): # 读取文件夹下所有的文件 ...
2019-06-14 09:30:03 30031 27
原创 自然语言处理-LDA建模代码
第一次尝试使用markdown 编辑器, 咔咔咔咔本篇博客记录之前做项目时使用自然语言处理方法LDA的一些方法,希望能够帮到大家。文章目录1.LDA模型构造概述:2.提炼训练文本3.对文本通过停用词表后进行分词4.训练LDA模型5.对模型进行评价6.其他操作将停用词表打包为pkl格式通过LDA模型得到每条文本所属的类别1.LDA模型构造概述:整体上来说分为以下几个步骤:提炼训练文本...
2019-06-11 15:58:50 1735 2
原创 使用LDA模型对新的文档进行分类
核心代码很简单:import gensimfrom 自己的工具类 import get_seg_content# lda_model 为已经训练好的LDA模型# content 为一条文本内容def get_topic(lda_model, content): # get_seg_content() 方法是对文本进行分词 content = get_seg_cont...
2019-06-02 09:55:02 2560
使用pyLDAvis的实例结果,及d3.min.js,ldavis.v1.0.0.css,ldavis.v1.0.0.js
2022-02-26
handless_firefox.tar
2020-12-26
一键安装libpcap及其所有依赖文件的脚本
2017-11-26
W3Cschool参考手册资料
2017-04-23
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人