大数据
开启人工智能探索之路,冲冲冲!
一个追逐自我的程序员
曾经梦想成为一个优秀的游戏策划,中道转而人工智能
展开
-
用R语言计算班级各门课程的加权平均分
## 用R语言计算班级的加权平均分 ##好久没有写博客了,曾经还说坚持写博客,后来因为各种事就忘了,暑假也没坚持写,由于加了大数据班,加上参加了一个活动,以后必须就一周写一篇,而且内容应该也是与大数据内容相关。 今天正好同学叫我帮他统计班上的成绩,并计算加权平均分,一百多个学生15门课,一个excel文件,由于知道Excel中可以输入公式可以计算,但由于不怎么熟悉且好像比较麻烦,就想着帮原创 2017-09-07 22:26:49 · 6814 阅读 · 2 评论 -
年度总结---------记录app评论数据预处理
前言好久没更新博客了,由于大多事(主要还是懒0.0)耽误了。今晚,算是我待在学校最后一个晚上了,也是今年最后一篇博客了,以此献给即将过去的2018年。记录记录今年做的一些自认为有意义的事:今年开始我谈了人生中的第一次恋爱 (0.0) ,虽然后来因为各种原因现在分手了,但是算是今年我觉得最有意义的一件事了,至少大学有段恋爱经历,从中也学习了不少。从学校大数据工作室毕业,算是入门了大数据的大...原创 2019-05-15 20:46:30 · 1068 阅读 · 0 评论 -
强化学习入门……的入门
强化学习是机器学习里面非常重要的一个派别。智能体 (agent) 会不断执行一些操作,通过结果来学习,在不同的环境中分别应该采取怎样的行动。在一系列教学文章里,我们可以了解不同的架构,来解决强化学习的问题。Q学习,深度Q网络 (DQN) ,策略梯度 (Policy Gradients) ,演员-评论家 (Actor-Critic) ,以及近端策略优化 (PPO) 都是将要涉及的算法。这...转载 2018-04-28 11:14:14 · 322 阅读 · 0 评论 -
如何使用正则表达式?
数据科学家的一部分使命是操作大量数据。有时候,这些数据中会包含大量文本语料。我们可以采用人工方式,亲自阅读,但我们也可以利用 Python 的力量。毕竟,代码存在的意义就是自动执行任务。即便如此,从头开始写一个脚本也需要大量时间和精力。这就是正则表达式的用武之地。正则表达式(regular expression)也被称为 RE、regex 和 regular pattern,这是一种让我们能快...原创 2018-04-23 19:27:16 · 2340 阅读 · 0 评论 -
python分析财务报表
前言其实这也是老师要求我们分析的一个项目,所以记录下分析的过程。 财务大数据作为大数据方向的一个热门方向,如果能学好,对于我们的今后工作是会有很大帮助的,同时目前市场人才需求也是很大的。 实验目的利用python构建财务报表,并进行一些财务分析。实验过程利用python爬虫爬取A股数据报表 这一步是同学做的,写的还不错,实验步骤参考如下链接:Requests...原创 2018-03-25 18:17:58 · 52944 阅读 · 20 评论 -
简单提升pandas技巧:如何降低内存占用率
前言pandas是一个Python软件库,可用于数据分析和操作。本文记录实现一些降低内存占用的简单方法。 当使用pandas操作小规模数据(低于100MB)时,性能一般不是问题。而当面对更大规模的数据(100MB到GB)时,性能问题会导致运行时间变得更长,甚至有可能因为内存问题导致运行失败。比如前段时间我用pandas读取数千张表,使用python自带读取方法明显比pandas快很多。 尽...转载 2018-03-18 21:30:23 · 6002 阅读 · 1 评论 -
Hadoop大数据处理技术综合实验
实验任务这篇博客是我们一个学期作业,记录在这里,只是方便我写作和一些解决过程的记录。具体实验步骤参考:http://dblab.xmu.edu.cn/post/7499/ 任务如下:本地数据集上传到数据仓库Hive;Hive数据分析Hive、MySql、HBase数据互导;利用Python/R进行数据可视化分析;利用Apriori基于关联规则的购物篮分析。 本地数据集上传到数据仓库Hiv原创 2017-12-08 11:58:23 · 9833 阅读 · 5 评论 -
R数据结构
向量 向量存储一组有序的值,,可以包含任意数量的元素,但是必须是一样的元素。 例如:subject_name <- c("Jonh","Jane Doe","Steve")#字符型向量temperature <- c(98.1,98.6,101.4)#浮点型向量temperature[2:3][1]98.6 101.4temperature[-2]#负号可以把该项排除在外[1]98.原创 2017-12-10 23:30:14 · 188 阅读 · 0 评论 -
k-近邻算法
这篇文章算是机器学习算法文章的开头篇,k-近邻算法个人觉得比较有效而且简单,这一系列的学习我感觉将会很有趣,因为这些算法能直接被用来解决一些实际的问题,把一些枯燥的数学算法用来解决问题,我也认为这是最好的学习方法。本系列文章结合机器学习实战学习做的一些学习笔记。 k-近邻算法简单说就是采用测量不同特征值之间的距离方法进行分类,这是机器学习实战所写的,我觉得不够完整,首先特征值必须是数值类型,否则欧原创 2017-10-01 13:53:16 · 587 阅读 · 0 评论 -
决策树----ID3
由于这周国庆假期,所以学习就停了一段时间,毕竟放松放松也是挺好的,决策树是放假前看了一点,还没看完,所以先记记所看的内容。 还是继续机器学习实战的学习,相比较k-近邻算法而言,决策树能解决一些非数值的特征值分类问题,当然也能解决数值的特征值分类,这里我们所用的算法是ID3,ID3算法无法直接处理数值型数据,后面将学习CART(分类回归树)算法,则可以解决这个问题。那我们就提出问题了,一些数据的“原创 2017-10-08 21:21:16 · 467 阅读 · 0 评论 -
mysql导入csv表
mysql一系列操作可以参考这里show databases;+--------------------+| Database |+--------------------+| 15 || comments || information_schema || mysql || perf...原创 2019-02-03 22:18:16 · 587 阅读 · 0 评论