自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(2)
  • 收藏
  • 关注

原创 【无标题】

自然语言处理(NLP)在文本分析领域应用广泛,本文以四大名著文本为例,实现分词、词频统计、词性分析、可视化、自定义词典、实体统计等功能,帮助大家快速掌握NLP基础流程。G.add_edges_from([('刘备', '关羽'), ('刘备', '张飞'), ('关羽', '张飞'), ('刘备', '曹操')])- 可视化: matplotlib (绘制饼图、柱状图)、 wordcloud (生成词云)、 networkx (绘制关系图)- 代码生成:输入注释(如“生成快速排序函数”)自动生成代码。

2026-03-11 09:28:39 133

原创 用Python 实现高效数据清洗

要么用合理值替换,比如用均值、中位数填充, df['数值列'] = np.where((df['数值列'] < Q1 - 1.5*IQR) | (df['数值列'] > Q3 + 1.5*IQR), df['数值列'].median(), df['数值列'])。脏乱差的数据就像满是杂质的矿石,不经过精细清洗,后续的分析建模只能是空中楼阁。df['日期'] = pd.to_datetime(df['日期'], errors='coerce').dt.strftime('%Y-%m-%d')

2025-06-13 21:36:09 1173 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除