数据分析
shelgi
一个每天都在学习的可爱程序猿
展开
-
数据分析大作业---山火/非法焚烧秸秆的预防系统
文章目录背景及要求开始动手1.数据探索2.数据预处理3.数据建模与模型评估1.SVM2.MLP3.随机森林4.开始试试CNN5.比较SVM和CNN6.Adaboost是否能挽回一点传统机器学习的颜面呢4.总结吐槽时间背景及要求然后数据呢是BMP格式的图片,大小为40*40,大致如下数据集目录结构其中0是非烟火,1是烟火然后总结一下任务本次大作业的目标是基于提供的图像,获得一个识别烟火的图像分类器。流程数据探索数据预处理数据建模模型评估总结要求建模:使用两种传统原创 2020-05-14 19:21:53 · 1211 阅读 · 0 评论 -
数据分析---众包任务
文章目录前言开始动手1.导入数据,查看并且计算指标2.导入我们得到的指标,并且进行主成分分析3.添加主成分数据,进行拟合4.用svr给未完成的任务重新定价5.用原价格和主成分去训练SVM分类模型用刚刚训练好的SVM对新的价格和特征做预测模型评价最后前言依然是记录一次我的近期作业,这个做了一天半才做完,昨天通宵去拟合函数结果还是不理想,耽误了太多时间。主要原因还是昨天取的特征值太少了导致一直欠拟...原创 2020-04-30 03:16:18 · 2996 阅读 · 6 评论 -
数据分析-----基于水质图像的水质分析
文章目录1.前言2.正文作业背景及要求开始动手1.首先,进行图片处理得到颜色矩2.建模过程思考与改进结束1.前言这一次是分享一次我的作业,然后这个是我做的,等老师过几天分享他的之后我会把老师做得好的地方过来更新的。2.正文作业背景及要求还是之前的数据分析与挖掘实战里面的案例,得到的数据集是图片,然后我们需要进行提取图片的特征颜色矩然后建模,大概的流程和操作方法见下图。基本流程图像...原创 2020-04-22 17:33:39 · 5418 阅读 · 8 评论 -
聚类问题---航空公司客户价值挖掘与分析研究
文章目录前言开始动手1.导库,导数据2.数据清洗及预处理3.简单的探索性分析(一小部分)4.开始选择需要的特征,重新构建数据集5.使用kmeans对构建的数据集聚类6.对数据使用层次聚类看看效果7.使用DBSCAN进行聚类8.GAN实现聚类9.总结改进与不足前言当然,这次的分析还是接的一个单子的研究项目。当时我听到这个名字的时候就想到数据分析的那个经典例子,没错就是张良均老师的数据挖掘实战这本...原创 2020-03-11 20:23:16 · 2777 阅读 · 3 评论 -
基金亏到底了?那就来分析一下如何合理投资吧
文章目录前言开始分析1.首先还是老规矩,导库导数据2.数据预处理3.简单可视化一下近期行情4.正式开始解决任务任务1:假设定投的金额是500元,每周定投一次,据此计算2019年对沪深300指数基金进行定投的收益率任务2.假设定投的金额是500元,每周定投一次,据此分别计算从2002年开始到2019年,每年定投沪深300指数基金的收益率并将结果可视化任务3:探索不同的定投策略,看看你能否得到更好的定...原创 2020-03-11 19:49:09 · 659 阅读 · 0 评论 -
又是一次数据分析的例子(自杀分析)
文章目录前言数据分析的背景开始数据分析1.导库、导数据,简单的数据处理2.探索性数据分析3.数据预处理4.建模前言究竟是什么让我凌晨四点一边看着人家吃美食,一边敲代码,写博客,原因呢就是需要帮别人做这次的数据分析。数据分析的背景来自于kaggle的一次比赛点这里去查看/下载数据关于数据集的介绍等下在代码中可以看到,这里就不多说了。这次竞赛就是通过一系列特征来找到自杀率上升的信...原创 2020-03-26 00:48:36 · 7034 阅读 · 9 评论 -
爬取B站程序猿up主,分析程序猿up出什么类型的视频会受欢迎
文章目录前言开始动手1.首先需要去采集数据2.开始数据分析3.查看各图中第一的视频类型4.做个总结最后前言我,一个天天起床,睡前必刷B站的菜鸡程序猿,昨天看到一位关注的程序猿up主发布的动态,心里很不好受,所以才想着做这次的内容到底程序猿up主做什么类型的视频才会受大众喜欢呢?https://player.bilibili.com/player.html?aid=开始动手1.首先需要...原创 2020-02-26 23:05:56 · 2872 阅读 · 0 评论 -
囧妈影评分析
文章目录爬虫部分数据分析部分对这部电影的看法爬虫部分为了能获取到全部评论,你可以登陆自己的账号之后使用cookie防止反爬,也可以用selenium登陆爬取。我这里是直接搬运一下别人的代码import requestsfrom bs4 import BeautifulSoupimport numpy as npimport pandas as pd import timefrom ...原创 2020-02-04 15:21:58 · 1694 阅读 · 0 评论 -
想见你的弹幕爬取和对弹幕信息简单可视化
之前朋友圈无意刷到比较关注的人发了一条什么找人帮忙追女孩子也不能找李子维,作为程序猿(舔狗)看了一脸懵逼,从来不怎么看剧的我然后就去百度了一下,原来是想见你。然后就去腾讯视频看了一下,额不是我喜欢看的类型,不过还是想做点什么,那就分析一下弹幕吧。以后真的要改掉拖延症,其实两天前我就应该写这个博客的,拖了两天。。。结果现在去翻朋友圈,三天可见,无朋友圈截图爬取弹幕由于不是VIP,第一件事就是打...原创 2020-01-19 23:31:25 · 2145 阅读 · 0 评论 -
请多多关注身边这些需要帮助的人,也许我们的一句关心就是他们的希望
昨天日常睡前刷B站,看到一个很糟心的话题确实,抑郁很不好受。深夜常常一个人翻来覆去睡不着,眼泪不受控制的往下流,仿佛被世界抛弃,又或是突然的情绪爆发……经历很长一段时间后我走出了这个阴影,但是对某些人我可能会愧疚一辈子,我只能默默关注着她发的微博,但是不能去给她任何希望,所以每次看着她这么痛苦都会深深自责负面情绪完全是她生活的主旋律,然后还看到其他类似的人所以我就去到处找相关的项目...原创 2019-12-08 14:52:40 · 550 阅读 · 0 评论 -
说好不哭,但是再次听到你的新歌还是没忍住
谈到周董,说他是我们的青春也不为过吧。从最开始的龙卷风,黑色幽默,我记得那个时候我才四五岁听着姐姐的mp3,疯狂循环这些歌。到后来的安静,搁浅,就天天扯着嗓子飙高音。当时的我们根本不懂歌中的心酸,现在慢慢经历过,体验过才发现成人的世界真的有太多的苦涩。昨天他发布新歌不到三分钟,各大音乐平台就被席卷了,qq音乐卡都上了热搜头条,真的只能说周董牛逼!!!作为程序猿的我,能做的也只有敲点代码来表示对偶...原创 2019-09-17 23:57:49 · 331 阅读 · 0 评论 -
数据分析第六天--数据分析下
接着昨天的没写完的数据分析继续7.矩阵分析矩阵分析是指根据事物的两个重要属性作为分析依据进行关联分析,从而找出解决问题的方法。举个例子,从人均月消费和人均月流量通过矩阵分析直观的看到领先的城市和相对低的城市import pandas as pdimport matplotlibimport matplotlib.pyplot as plt#点的标签font=matplotlib.f...原创 2019-07-26 15:48:37 · 354 阅读 · 0 评论 -
简单的数据可视化
日常今天还是在到处填坑,ubuntu18.04安装python2没有pip,安装pip又说没有这没有那的,安装setuptools的时候又缺少什么一大堆,果断放弃来到Windows。结果Windows编译caffe又忙活了一天,因为我的环境是vs2017所以还是要安装点插件的。然后就是在anaconda中建立一个python2的虚拟环境,再去安装caffe和digits。不过现在digits还...原创 2019-07-20 20:58:57 · 647 阅读 · 2 评论 -
今天开始数据分析--pandas序列部分
日常今天很开心,在下午终于在windows上把digits搭起来了,看到了localhost:5000那个界面差点眼泪都快出来了。这几天就是在到处填坑补坑,发现不行再重新跳出来继续补坑,就这样反反复复终于成功。额,有关这个搭建呢,我看了好多相关资料,从csdn到github和stack overflow,所以需要整理一下等几天才能写安装具体过程和贴上相关的借鉴博客链接,下面先上一张界面图吧。...原创 2019-07-21 23:20:58 · 401 阅读 · 0 评论 -
数据分析第二天--pandas DataFrame部分和数据导入导出
1.pandas DataFrame部分昨天讲了序列部分,今天来讲讲pandas的数据框,其实是昨天偷懒没写。环境还是一样,用spyder就好。概念数据框(DataFrame)用于存储多行和多列的数据集合,有点像Excel表格,它的不同列可以是不同的数据类型。定义一个数据框通过pandas的DataFrame函数通过字典来生成数据框,这个函数一般包含三个参数。pandas.DataFr...原创 2019-07-22 17:16:04 · 5323 阅读 · 0 评论 -
数据分析第三天--数据清洗和数据转换
简单介绍我们通过一些方法获得数据之后,再通过上次讲的数据导入将得到的数据导入到编程环境中,接下来就到我们今天要聊的数据清洗和数据转换部分。步骤1.导入数据见上一篇博客2.数据清洗我们得到的数据可能会因为各种原因,导致部分数据存在错误,缺失,重复等问题,这样的数据一般称作“脏数据”,而我们直接得到的数据大多都是“脏数据”,所以我们就需要进行数据清洗这一步。数据排序数据排序是按照一定...原创 2019-07-24 02:14:02 · 2830 阅读 · 0 评论 -
数据分析第四天--数据抽取、数据合并和数据计算
开头再对导入的数据进行清洗和相应的转换之后,我们就需要进一步的对我们所需要的数据进行抽取、合并和简单计算。今天我们就来聊一下这三步,然后数据处理部分就大致结束了,可以开始进行数据分析。1.数据抽取数据抽取,也叫做数据拆分,它是指保留,抽取原数据表中的某些数据形成一个新的数据表,主要方法有字段拆分、记录抽取和随机抽取。1.1字段拆分抽取某一字段的部分信息,形成一个新的字段1.1.1按位置...原创 2019-07-24 17:59:41 · 2156 阅读 · 0 评论 -
数据分析第五天--开始数据分析
什么是数据分析之前我们讲了pandas中的序列和数据框、数据的导入导出、数据处理这几部分,完成这些之后我们就获得了比较干净的,最符合我们期望的数据,接下来我们就可以进行数据分析了。那什么是数据分析呢?先大概讲讲它的概念。数据分析: 数据分析是指用适当的分析方法及工具,对我们收集来的数据进行分析,提取有用的价值信息,最终形成有效的结论。一般我们拿到数据不是直接就开始敲代码分析,而是先想想分析的思...原创 2019-07-26 00:37:09 · 455 阅读 · 0 评论 -
哪吒影评简单可视化分析
简单说说写些代码简单分析一下哪吒的观影影评,步骤还是先爬取数据,然后利用pandas读取,可视化,最后把评论绘制成词云开始动手全程大概半个小时左右,都是一些老套路爬取数据数据分析提取评论绘制词云1.爬取数据在这里来查看评论https://m.maoyan.com/movie/1211270/comments?v=yesF12开始分析网页可以往下滑会发现出现很多不同的com...原创 2019-08-13 15:54:13 · 2160 阅读 · 2 评论 -
数据分析第七天--数据可视化
简介当完成数据处理和数据分析之后,得到了数据分析的结果,但是这样的一堆表并不能让人轻松的观察和理解数据分析的结果,所以最后我们就需要数据可视化将分析结果清晰的呈现出来。数据可视化:也称为数据展示,它用于研究如何利用图形,展现数据中隐含的信息,发掘数据中所包含的规律。通俗的说就是把枯燥的数据变为生动清晰的图象。它的主要作用是:表达形象化,重点突出性,体现专业性。今天主要来讲讲基本的散点图,矩...原创 2019-07-27 11:29:42 · 1198 阅读 · 0 评论