自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 python晋江文学城数据分析——简单的可视化(pyecharts)

本节用pyecharts对一些非数值的数据进行初步的较为简单的可视化。

2023-04-10 10:21:45 2123 6

原创 python晋江文学城数据分析——标签关联规则分析(Apriori算法+R语言)

在学R语言购物篮分析,突然联想到虽然标签算不得商品,但和商品很相似,可以看看作者设置标签时喜欢把什么标签放一块。由于前文一直用的是python,所以准备接着用python,但是整体弄下来后,发现在可视化方面python完全没有R语言多样,所以也用R语言做了关联规则分析。1python 参考python数据分析 - 关联规则Apriori算法_python apriori算法_你干嘛,哎呦!的博客-CSDN博客 分析只针对标签这一属性下的数据。

2023-04-07 16:36:21 1258 2

原创 python晋江文学城数据分析(一)——爬虫(BeautifulSoup正则)

回忆性文章,其实过程中遇到过很多问题和困难,但暂时只想起这些了。待改善的地方:1)爬取太慢,爬取250页花费近10个小时,看网上有多进程、多线程可以加快爬虫时间,之后有时间当学习改进;2)正则表达式不够精确,部分详情页爬取出来不是目的数据,因为错误的数据量不多,后续数据处理采取了直接删除的办法,之后可以在爬虫阶段尝试改进;

2023-04-06 18:34:55 4958 17

原创 python晋江文学城数据分析(二)——数据预处理

承接上文,将爬好的数据用python和jupyter进行处理分析。

2023-04-05 12:49:13 971

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除