自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 代码总结——jieba分词

该函数将_List与c这两个list压缩在了一起,其返回的zip类型(我查了zip(),返回的是元组,但是我用type()函数来看其返回值却是zip类型)其中的元素似乎是键值对的形式,因为可以转化为字典类型,值得注意的是,_List与c的元素的个数是一样,不然使用zip()时会报错。这些词语在文本中出现频率高,但通常对文本的语义贡献较小因此在一些文本处理任务中,如文本分类、信息检索等,可以被忽略或剔除,以减少处理的复杂性、提高处理效率和提取更有意义的词汇特征。代码的格式和lambda函数很像,倒置的。

2024-02-29 15:06:30 1535

原创 jieba库

这是词库的内部词语的格式,以第一个为例,hau为要分词的词语,154564为词频,n为词性,词性部分也可以省略不写。2.3.如果分离不出自身想要的词,可以通过jieba.add_word(s)和jieba.load_userdict(filepath)来修改词库达成分离自己想要的词的目的。2.2.这个内置词库是可以查看的,通过print(jieba._file_)我们可以找到jieba库所在的位置,其中有个dict.txt文件,这个文件就是内置词库。全模式:把句子中所有的可以成词的词语都扫描出来,有歧义。

2024-02-27 20:09:31 640

原创 计算机硬件相关笔记

机械硬盘:硬盘就是光盘,有氮气硬盘,通过磁头的磁极来代表01,通过磁极转换来录入信息,一般保质期为四年,当里面的氮气泄露的差不多时,就到了要更换硬盘的时候,此时磁盘会进入写保护状态,无法录入信息,在系统上会提示你跟换磁盘。cpu的主频代表cpu的性能,计算速度,有时候我们可以通过调主板参数使cpu的频率高于原本主频,而这项技术就使超频技术。其实电脑的配置都是以cpu为核心的,适配是最好的,个人看法想要DIY自己的电脑首先要确定cpu,然后根据cpu来确认自己的主板和电源,再就是其他电子元件。

2023-12-12 15:33:42 486

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除