- 博客(9)
- 收藏
- 关注
原创 vue-pdf-signature pdf分页 pdf1.4字体缺失 pdf字体太粗显示不清
vue-pdf-signature pdf分页 pdf1.4字体缺失 pdf字体太粗显示不清
2023-12-27 13:51:58 777 1
原创 html+js+css 滑动滚轮改变导航栏样式
一个html+css+js实现的导航栏电梯效果<!DOCTYPE html><html lang="en"><head> <meta charset="UTF-8"> <meta name="viewport" content="width=device-width, initial-scale=1.0"> <meta http-equiv="X-UA-Compatible" content="ie=edge"&
2021-08-30 11:17:22 745
原创 写一个TF-IDF模型
这个小项目是跟一位广工的小伙伴一起完成的,他负责提供数据和这个模型的理论,没办法,谁让咱数学底子薄呢,我就是负责一下代码实现就完事了模型理论这个模型的基础理论其实不难假设我有一千篇论文,通过数据清洗,分词等操作,我得到了关键词数据。然后从这些关键词中,再次去找关键词。常理来说,一个词出现的频率越高那么这个词就越关键。然如果只有这一篇论文出现了这么一个词,而且满篇都是这一个词,这个词被恶意刷屏了,怎么办。那么我们就在引入一个量,log(总文章/总文章中含有这个词的文章数),咱也不晓得这个模型的大佬
2020-11-25 23:26:18 206
原创 使用jieba对csv招聘文件某一列数据进行分词
我们从搜狗细胞词库下载了计算机名词大全,从网上找到了哈工大,百度和四川大学停用词词库并进行了合并去重操作,得到了相对完整的中文停用词词库,将它们对jieba库进行对接,使用jieba对csv文件进行操作技术细节1、csv文件提取一列,转化为list进行分词2、分词操作中,计算机名词大全让jieba不要把词分错,如“机器学习”不要分成“机器”“学习”,停用词库进行对比,将很明显不需要的词,特殊...
2019-12-29 11:48:53 9005 8
原创 中文停用词合并
中文停用词表的下载感谢这位大佬在GitHub上传的文件这是下载地址https://github.com/goto456/stopwords下面的代码是将这几个文本文件合并去重代码是挺简单的重点在于这些停用表中含有大量的特殊字符在打开和保存的时候需要用utf-8-sig码如果报错UnicodeDecodeError: ‘utf-8’ codec can’t decode byte ...
2019-12-28 18:10:00 633
原创 淘宝爬取商品信息,并写入csv
淘宝爬取基本商品信息有价格,商品名称,购买人数,店铺,地点最后写入csv整体爬取没什么,时间原因没有去爬评论和评分的详细信息,淘宝网站更新后需要浏览器的cookie,我这里就不展示我的cookie了,太长。本文写的时候借鉴了https://blog.csdn.net/holyjesus/article/details/100835712?utm_source=app。下面是完整代码imp...
2019-12-16 13:03:26 901
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人