自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

呆萌的代Ma

战力只有5的渣渣,发奋图强中

  • 博客(4)
  • 资源 (13)
  • 收藏
  • 关注

原创 Scrapy爬虫抓取ZOL手机详情

前不久需要一批手机数据做测试,所以就爬取了ZOL上关于手机的各项参数,现在把代码分享出来,希望大家能够多提改进意见。ZOL手机信息想要抓取ZOL关于手机的信息需要三个步骤:手机商城列表页 —》单个手机详情页 ----》当前手机更多详情页面爬虫代码# -*- coding: gbk -*-from scrapy.spiders import CrawlSpiderimport scra...

2019-06-15 10:06:50 1069

原创 2750个通用停用词表整理,免费下载

中文停用词表下载一共2750个停用词,属于通用停用词表。下载地址:链接:https://pan.baidu.com/s/1u-Ob86VGVSk3vhnwf2S29w提取码:aoj4停用词表整理代码下载了很多网上的通用停用词表,同时合并了我们实验室的停用词表后使用下面的代码对停用词表整理:import osdef readfile(path): # 读取文件夹下所有的文件 ...

2019-06-14 09:30:03 30031 27

原创 自然语言处理-LDA建模代码

第一次尝试使用markdown 编辑器, 咔咔咔咔本篇博客记录之前做项目时使用自然语言处理方法LDA的一些方法,希望能够帮到大家。文章目录1.LDA模型构造概述:2.提炼训练文本3.对文本通过停用词表后进行分词4.训练LDA模型5.对模型进行评价6.其他操作将停用词表打包为pkl格式通过LDA模型得到每条文本所属的类别1.LDA模型构造概述:整体上来说分为以下几个步骤:提炼训练文本...

2019-06-11 15:58:50 1735 2

原创 使用LDA模型对新的文档进行分类

核心代码很简单:import gensimfrom 自己的工具类 import get_seg_content# lda_model 为已经训练好的LDA模型# content 为一条文本内容def get_topic(lda_model, content): # get_seg_content() 方法是对文本进行分词 content = get_seg_cont...

2019-06-02 09:55:02 2560

使用pyLDAvis的实例结果,及d3.min.js,ldavis.v1.0.0.css,ldavis.v1.0.0.js

1. d3.min.js,ldavis.v1.0.0.css,ldavis.v1.0.0.js三个文件内容 2. pyLDAvis的实例 3. 实例请参考:https://blog.csdn.net/weixin_35757704/article/details/123150467

2022-02-26

geth_tools.tar.gz

以太坊go-ethereum v1.9.22的官方代码编译后,bin目录下的工具包,可以直接使用

2020-12-27

handless_firefox.tar

包含已调试好的selenium、firefox与python3.6的docker镜像文件,同时有一个测试案例,可以直接运行,使用无界面firefox访问网站

2020-12-26

呆萌的停用词表.txt

停用词表,一共2750个停用词,属于通用停用词表。 下载了很多网上的通用停用词表,同时合并了我们实验室的停用词表后使用下面的代码对停用词表整理。

2019-06-14

主流售房网站爬虫

通过jsoup对主流售房网站的房屋信息进行爬取与提取,然后通过poi将数据保存在本地的excel数据表中。

2017-12-13

一键安装libpcap及其所有依赖文件的脚本

这是一个快速安装libpcap的shell脚本 运行 sudo add_libpcap.sh 在运行中会在桌面上暂时的新建一个libpcap_dir的文件夹,用来暂时存放所有的文件,在安装完成后会删除这个文件夹。 安装文件的版本: m4-1.4.9 bison-3.0 flex-2.6.0 libpcap-1.8.1

2017-11-26

网页爬取爬虫

使用java语言快捷的爬取整个网页的源代码,并且将爬取成功的网页代码与出现错误的网址的错误信息保存到本地文件中.

2017-10-10

Linux离线中文命令手册

linux命令手册,能够快速的查看命令与用法

2017-07-20

软件开发常用词汇

软件开发的常用英文单词及对应中文翻译

2017-07-20

Git 64位 最新版 Git-2.13.1.2-64-bit

Git 64位 最新版 Git-2.13.1.2-64-bit,从官网直接下载

2017-06-20

Python2.x链接Mysql的安装文件

Python2.x直接链接mysql的安装文件

2017-04-23

Python3链接Mysql的64bit安装文件

Python3链接mysql的文件

2017-04-23

W3Cschool参考手册资料

2017-04-23

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除