数据分析【已封】
数据分析案例
努力的SIR
你只管努力,其他的交给天意。
展开
-
Tianchi Data Hero Cup —— 短租数据集分析
数据listings:id 房源IDname 房源标题host_id 主人idhost_nameheighbourhood_group 行政区IDheighbourhood 行政区latitude 维度kongitude 经度room_type 出租类型(entire home 或者 private room)price 价格minimum_nights 最少天数numbe...原创 2019-12-24 11:46:58 · 2856 阅读 · 0 评论 -
数据分析实战(八):pandas文本数据实战
问题描述在许多实际的数据处理工作中,数据集通常包含分类变量。这些变量通常存储为表示各种特征的文本值。一些示例包括颜色(“红色”,“黄色”,“蓝色”),尺寸(“小”,“中”,“大”)或地理名称(州或国家)。许多机器学习算法可以支持分类值而无需进一步操作,但还有许多算法不支持。因此,分析师面临的挑战是如何将这些文本属性转换为数值以便进一步处理。幸运的是,pandas和scikit-learn的py...原创 2019-12-16 20:07:04 · 301 阅读 · 0 评论 -
数据分析实战(八):北上广深租房图鉴
项目主要爬取北上广深链家网全部租房房源数据,并且得出租金分布、租房考虑因素等建议。首先奉上爬虫demo,如果有直接需要数据的请评论留言,会分享。import osimport reimport timeimport requestsfrom pymongo import MongoClientfrom info import rent_type, city_infoclass ...原创 2019-12-05 21:46:39 · 1922 阅读 · 9 评论 -
数据分析实战(七):城市春节禁放烟花爆竹
爬取全国367个城市2019年春节期间的空气质量指数数据(六万条数据全面解析,城市春节禁放烟花爆竹真的有用吗?)首先是数据获取,贴出爬虫demo,如果有需要数据的请评论# -*- coding:utf-8 -*-import timeimport requestsimport pandas as pdfrom lxml import etreeclass AQI(object):...原创 2019-12-03 14:22:45 · 1280 阅读 · 5 评论 -
数据分析实战(六):英国电商用户行为分析
案例:英国电商用户行为数据分析Part 1. 数据获取1.1 数据集简介https://archive.ics.uci.edu/ml/datasets/online+retail#该数据集为英国在线零售商在2010年12月1日至2011年12月9日间发生的所有网络交易订单信息。1.2 数据集内容数据集为xlsx格式,文件大小22.6M。数据共计8个字段,541908条。具体字段如下:...原创 2019-11-18 20:19:53 · 6384 阅读 · 5 评论 -
数据分析实战(五):2012年联邦选举委员会
2012 美国总统大选数据, 有关政治运动捐献的数据.包括捐赠者姓名,职业和雇主,地址和缴费金额.1. 加入新列 政党背景.2. 按照职业和雇主的捐献统计3. 捐赠金额分筒4. 按照州进行捐赠统计数据规整import pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsimport jsonf...原创 2019-11-14 08:03:03 · 344 阅读 · 0 评论 -
数据分析实战(四):美国农业部食品数据库
美国农业部食品数据库数据规整import pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsimport json# 准备数据(整体上是字典构成的字典)db = json.load(open('datasets/usda_food/database.json'))# db是字典构成的字典,注意筛选的方...原创 2019-11-13 16:03:54 · 2002 阅读 · 0 评论 -
数据分析实战(三):美国1800~2010年婴儿名字
美国社会保障局提供了从 1880 年至现在的婴儿姓名频率的数据. 其中数据集按照年份分为多个文件.1. 查看出生总数的变化(按照性别)2. 增添新列: 每个名字相对于出生总数的比例.(按照年份和性别分组)3. 分析名字趋势, 指定名字的数量变化4. 分析名字的多样性,并且进一步探究是什么导致了男女多样性差异5. 分析 男孩名字最后一个字母的分布在过去的 100 年里发生了重大的变化....原创 2019-11-12 12:24:57 · 1025 阅读 · 0 评论 -
数据分析实战(二):电影评分分析
MovieLens 1M 数据收集了 20 世纪 90 年代末和 21 世纪初的电影评分的集合.包含电影的评分,流派和年份以及观众数据(年龄, 邮编, 性别和职业), 数据分布在三个表格里.数据准备:一百万条数据import pandas as pd# Make display smallerpd.options.display.max_rows = 10# 自定义用户姓名(会按照...原创 2019-11-11 15:47:53 · 1117 阅读 · 0 评论 -
数据分析实战(一):短网址的用户收集的匿名数据
短网址的用户收集的匿名数据, 以.gov 或者.mil 结尾.1. 时区计数:找到数据集中最常出现的时区(tz 字段)3. 将时区计数多的时区分解为 windows 和非 windows 用户数据准备import jsonpath = 'datasets/bitly_usagov/example.txt'records = [json.loads(line) for line in ...原创 2019-11-11 15:03:06 · 1115 阅读 · 0 评论