![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据预处理
文章平均质量分 52
mantoureganmian
中年,不想上班,想远程办公。熟悉自然语言处理,推荐系统,机器学习。
展开
-
Python曲线肘部点检测-膝部点自动检测
肘部法则是经常使用的法则。很多时候,可以凭人工经验去找最优拐点,但有时需要自动寻找拐点。最近解决了一下这个问题,希望对各位有用。原创 2023-02-27 11:48:55 · 2345 阅读 · 0 评论 -
Pandas小白入门原理解释(一)---将value_counts的结果转为DataFrame
转为dataframe,index转为普通列并给一个默认RangeIndex,同时给value列一个名字,这个名字用name参数传递。rename_axis给index改名字,不支持给value列改名字。对于DataFrame时候,支持对列改名字。是将DataFrame的index重置为普通列,并设置一个默认index。是给DataFrame指定某一列作为index,并抛弃掉原来的index。关于此函数,其官方文档也是写的垃圾。参数:axis只支持值为0。对象来说,只有一个作用:将。原创 2022-12-15 17:26:49 · 2824 阅读 · 0 评论 -
Jupyter杂症一:jupyter 内核似乎挂掉了 它很快将自动重启---解决方案
jupyter 内核似乎挂掉了 它很快将自动重启NTEL MKL ERROR: Intel MKL FATAL ERROR: Cannot load libmkl_avx512.so.2 or libmkl_def.so.2.原创 2022-10-26 20:20:16 · 12812 阅读 · 0 评论 -
pandas-散记--可视化--hist vs bar的区别
bar和hist异同比较原创 2022-09-13 19:47:07 · 943 阅读 · 0 评论 -
Pandas学习笔记
这里写自定义目录标题groupby相关操作新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入groupby相关操作当list中含有np.nan时,如果用Counter去统计词频,就会巨慢。新的改变我们对Markdo原创 2022-05-04 17:32:10 · 1591 阅读 · 0 评论 -
Stanford CoreNLP无法生成实例对象
在服务器上运行Stanford,今日无法启动"StanfordCoreNLP"了,就是运行下面代码一直在运行,不结束,不报错。from stanfordcorenlp import StanfordCoreNLPstd_nlp = StanfordCoreNLP('/data/stanford-corenlp-4.2.0')最后找到原因:后台启动的相关java服务太多了。原因解释StandordCoreNLP底层是Java编写的,在Python生成StanfordCoreNLP实例对象时,这个包原创 2021-04-02 16:59:22 · 178 阅读 · 0 评论 -
lxml提取网页文字--去除样式代码和脚本代码
文章目录原因解决方案原因使用lxml包的xpath功能提取text时,有可能带出很多的CSS样式代码和脚本代码,如下:原因是html代码中带有<script>和<style>标签的代码,如下:解决方案删掉这些标签即可,代码如下from lxml import etree# 读取html codewith open("./ref=sr_1_10.htm") as f: html_content = f.read() # 建立解析树html原创 2021-03-30 16:43:28 · 431 阅读 · 0 评论 -
无监督---构建英文词库
词性POS频数/排名模式(pattern)分析原创 2021-02-19 13:45:26 · 100 阅读 · 0 评论 -
省内存OneHotEncoder
OneHotEncoder 在进行编码时,会将输入的数据先转为numpy.array对象,以此优化速度。这可能会造成文中子类型内存不足,比如:某列中某值是3000000个字符的文本,那么就会造成内存不足。对此,做这这一版超级省内存的。OneHotEncoder还有get_feature_names可以用,所以改写了一个非常节省内存的版本。from sklearn.base import TransformerMixinclass LittleOntHotEncoder(TransformerMix原创 2020-07-05 22:28:32 · 493 阅读 · 0 评论