数据分析
lisenpy
记录学习及工作中遇到的问题
展开
-
对魂器学院贴吧舆论的分析
使用爬虫软件获取魂器学院的最近5个月的贴吧帖子题目及内容阐述。 然后将数据保存一份至excel,之后用pandas 读入,先对用户分析,将用户编码,获得五个月内有发帖玩家总计1424人,平均一个人发帖4个左右。 对每个帖子的回复数分析,发现平均每个帖子回复17个左右。 回复中位数在9,说明大部分帖子回复人数不足10个。其中有个帖子回复数高达8888回复数,查看了一下,是个水楼贴,应该要清洗掉的,不过这边就这么分析吧。 为主题做一张词云图 import jieba import wordcloud da原创 2020-09-23 14:33:28 · 231 阅读 · 0 评论 -
电信客户流失分析
采用二值型逻辑斯蒂模型。 先等一下原创 2020-08-15 19:57:31 · 363 阅读 · 0 评论 -
Python批量处理压缩文件中数据的方法
import os import tarfile from six.moves import urllib DOWNLOAD_ROOT = "https://raw.githubusercontent.com/ageron/handson-ml/master/" HOUSING_PATH = os.path.join("datasets", "housing") HOUSING_URL = DOWNLOAD_ROOT + "datasets/housing/housing.tgz" def fetch_原创 2020-08-11 22:57:32 · 169 阅读 · 0 评论 -
机器学习过程中可以获取的开源数据源网址
提供几个真实可以获得真实数据的开源数据网址,在这里可以找到你需要用到的人工智能和以及机器学习需要用到的算法检验数据。 算是我自己记录一下数据源的网址吧。 1、UC Irvine Machine Learning Repository 2、Kaggle datasets 3、Amazon’s AWS datasets 打不开的话需要自己搭梯子 ...原创 2020-08-11 11:23:48 · 248 阅读 · 0 评论 -
对信号源连接人群的停留时间分析——聚类分析
#-*- coding: utf-8 -*- #数据标准化到[0,1] import pandas as pd #参数初始化 filename = '../data/business_circle.xls' #原始数据文件 standardizedfile = '../tmp/standardized.xls' #标准化后数据保存路径 data = pd.read_excel(filename, index_col = u'基站编号') #读取数据 data = (data - data.min())原创 2020-08-10 23:30:53 · 537 阅读 · 0 评论 -
多项式模型在不同数据量下的学习曲线变化趋势
import numpy as np import pandas as pd import matplotlib.pyplot as plt from sklearn.preprocessing import PolynomialFeatures from sklearn.linear_model import LinearRegression from sklearn.pipeline import make_pipeline from sklearn.model_selection import val原创 2020-08-05 14:46:08 · 552 阅读 · 0 评论 -
沪深300成分股分析
import pandas as pd import numpy as np import glob import os import seaborn as sns import matplotlib.pyplot as plt import statsmodels.api as sm import statsmodels.formula.api as smf from statsmodels.formula.api import ols, glm 引入需要用到的库,使用循环语句以及glob、os库批量原创 2020-07-15 21:06:23 · 2074 阅读 · 0 评论