![](https://img-blog.csdnimg.cn/20190918140213434.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
数据挖掘与分析
文章平均质量分 92
Python Pandas数据挖掘与分析实践
叶小乙颜习社
这个作者很懒,什么都没留下…
展开
-
Mac下Hadoop+ spark + Hbase + Kafka + zookeeper环境的搭建
安装必备的环境:操作系统:Mac 10.15.4软件包管理工具:brew依赖包JDK: 1.8.01、安装java版本Mac默认安装版本11.0,安装hadoop、hbase、kafka时都要求jdk1.8+, 建议首先安装java8,同时,可以系统保持2个版本参考:Mac上Homebrew安装多版本Java2、安装hadoop2.1 配置ssh配置ssh就是为了能够实现免密登录...原创 2020-05-06 15:17:33 · 469 阅读 · 0 评论 -
更新packages失败raw.githubusercontent.com port 443
由于某些因素,导致GitHub的raw.githubusercontent.com域名解析被污染了。解决方法:通过修改hosts解决此问题。操作步骤:1、查询真实IP在https://www.ipaddress.com/查询raw.githubusercontent.com的真实IP。2、修改本地hosts文件sudo vi /etc/hosts添加ip对应199.232.2...原创 2020-04-17 18:45:06 · 868 阅读 · 0 评论 -
机器学习实践项目数据集资源下载
机器学习实践项目数据集资源下载超神经kaggle陆续继续收集,欢迎发现更好资源的朋友,留言告知~~原创 2020-04-16 04:26:04 · 287 阅读 · 0 评论 -
Python+WordCloud绘制京东评论词云图实践
WordCloud绘制词云图实践案例作为文本分析,其中常用库jieba、wordcloud等用法演示,以作记录~~import osimport randomimport numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport jiebaimport jieba.analyseimport word...原创 2020-04-12 18:10:20 · 898 阅读 · 0 评论 -
Python文本分析-常用中文停用词表(Chinese Stop Words)
在做jieba中文分词处理,进行文本分析,必不可少的停用词处理,国内比较常用的中文停用词库,有以下几个:中文停用词表哈工大停用词表百度停用词表四川大学机器智能实验室停用词库而@elephantnose 对以上4个词库进行了合并去重,共计2311个,可在github直接下载使用~~链接:GitHub链接...原创 2020-04-12 13:52:24 · 16150 阅读 · 0 评论 -
Pandas怎样找出最影响结果的哪些特征--SelectKBest
Pandas怎样找出最影响结果的特征当数据预处理完成后,我们需要选择有意义的特征输入机器学习的算法和模型进行训练。来简单看下SelectKBest的用法:SelectKBest模型原型class sklearn.feature_selection.SelectKBest(score_func=,k=10)参数score_func: 给出统计指标sklearn.feature_sele...原创 2020-03-31 01:09:17 · 3109 阅读 · 0 评论 -
Pandas分析某眼TOP100电影都来自于谁?
史上TOP100电影分析某眼TOP100电影数据分析准备数据网页抓取数据分析数据清洗和处理分析1:最耀眼的明星排行分析2:TOP100诞生于哪些年份?分析3:TOP100最受欢迎的题材分析4:TOP100都诞生哪些国家地区?分析5:TOP100 评分分布某眼TOP100电影数据分析2018年有一段时间稍微看了一段时间数据分析,稀里糊涂地做过一些demo,后来忙于创业项目的开发,风风火火地搞了1...原创 2020-03-30 01:09:01 · 843 阅读 · 0 评论