自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

quintind的专栏

大数据之路

  • 博客(58)
  • 资源 (5)
  • 收藏
  • 关注

原创 Windows环境下安装pyspark环境常见错误及解决办法

1、 Error:java.util.NoSuchElementException: key not found: _PYSPARK_DRIVER_CALLBACK_HOST如果刚安装pyspark环境,运行测试程序时,弹出这个错误,很有可能是你安装软件的版本不匹配导致的。例如:Java : jdk1.7scala : 2.10hadoop: 2.6spark: spark-1.6.0...

2019-06-10 11:29:45 4271

原创 Failed to start LSB: Bring up/down networking 虚拟机不能上网

最近在CentOS7中经常碰到虚拟机连不上网的问题,错误代码如下。Restarting network (via systemctl): Job for network.service failed because the control process exited with error code. See "systemctl status network.service" and "jo...

2019-05-17 21:33:19 6144

原创 Spark编程及作业提交易犯错误

1、Spark作业需要从本地读入数据本地输入的数据文件,需要和jar包放在Linux操作系统中,不能放在hdfs文件系统中。以下是一个示例pathIn="../sparkJar/distinct_infected_ua " # 本地要传入给Spark作业的数据位置for i in {10..30}doif [ $i -lt 10 ] ; theni=0$ifipathIn...

2018-06-24 22:31:03 539

原创 OpenSSH的安装、使用

因为SSH受版权和加密算法的限制,现在很多人都转而使用OpenSSH。OpenSSH(Open Secure Shell,开放安全Shell)是SSH的替代软件,而且是免费的。OpenSSH默认使用RSA密钥,它采用安全、加密的网络连接工具代替telnet、ftp、rlogin、rsh和rcp工具。1、安装1.1 服务器端安装需要安装的软件: openssh-server:服务...

2018-06-17 11:59:05 72127 4

原创 Win10升级后出现的OEM分区处理

升级Win10后,“此电脑”中出现一个新的分区(约500M),并且系统中总是提示该分区磁盘不够用的干扰信息。右键单击“此电脑”——>管理——>磁盘管理,发现这是一个名叫OEM的分区,再扩展了一下这个概念,原来还有恢复分区、OEM分区、EFI系统分区,它们之间的区别和联系如下:OEM分区里有厂商预装的一键还原程序,恢复分区(image,也是OEM分区)装有厂商系统还原的镜像文件;...

2018-06-10 21:33:31 82468

原创 量子叠加态的理解

1、什么是量子一个物理量如果存在最小的不可分割的基本单位,则这个物理量是量子化的,并把最小单位称为量子。量子英文名称量子一词来自拉丁语quantus,意为“有多少”,代表“相当数量的某物质”。在物理学中常用到量子的概念,指一个不可分割的基本个体。例如,“光的量子”(光子)是一定频率的光的基本能量单位。2、量子计算机传统的计算机都是使用二进制的,一个比特就是0或者1,而量子比特也是使用二...

2018-06-03 22:32:26 22433

原创 CentOS7下的任务计划

若要在固定时间触发某个作业,就需要创建任务计划。CentOS 7下可以通过修改/etc/crontab/文件或者使用 crontab命令实现任务计划。1、 /etc/crontab文件root用户模式下,在命令行输入vi /etc/crontab即可打开上述文件,内容如下:SHELL=/bin/bashPATH=/sbin:/bin:/usr/sbin:/usr/binMAILTO...

2018-05-27 23:34:32 2429

原创 Linux虚拟机中挂载光驱——rpm包安装

Linux初学者在练习rpm包安装时,常常因找不到rpm包而烦恼。寻找rpm包通常有两种方法:a、网络下载,如:rpmfind网站; b、直接使用Linux系统镜像文件中的rpm包。 以下讲述的是如何在CentOS文字界面下使用这些rpm包。1、将CentOS镜像文件加载到Linux光驱,如下图所示;2、连接光驱右键点击虚拟机-> 可移动设备等,如下图所...

2018-05-20 20:24:11 20231

原创 Linux硬盘分区训练——往VMware虚拟机中添加硬盘

在练习Linux硬盘分区时,若采用真实硬盘,可能会造成硬盘损坏而难以修复,因此在虚拟机中增加一块虚拟硬盘来进行练习是一个不错的选择。实际上,除了可以在虚拟机中添加虚拟硬盘之外,也可以添加光盘、CPU、处理器等虚拟设备。虚拟机中硬盘添加方法步骤如下:1、虚拟机关机; 2、右键点击要添加硬盘的虚拟机->设置,如下图所示; 3、左键点击图中的硬盘图标->点击添加-&...

2018-05-20 17:12:15 1143

原创 参加第2届全国高校大数据教学研讨会总结

一、主要内容大会的PPT可以从网站 http://dblab.xmu.edu.cn/post/10745/ 下载。以前涉及到的大数据计算,基本就是MapReduce操作以及加减乘除的简单组合,并没有特别地将其视为大数据算法,并且认为大数据算法知识传统算法的简单迁移。专家眼中的大数据算法跟我想的还是不一样。 1、王宏志介绍大数据算法大数据算法定义:在给定的资源约束下,以大数据为输入,...

2018-05-12 22:52:30 873

原创 中国资本市场的来龙去脉

1、中国股份制改革萌芽中国股份制改革源于农民土地承包责任制;股份制改革后农村产生了第一批中资企业——乡镇企业,解决了从土地上被解放出来的数亿青壮年农民就业问题。乡镇企业的快速发展给当时仍然有强烈的意识形态色彩的中国决策层一个重要信号:“股份制”不是资本主义的发明,而是切切实实解决国计民生问题的良药,这个信号为下一步城市格局的变化奠定了基础。2、中国股份制改革发展自上而下的...

2018-05-06 23:45:07 509

原创 Linux中的组群账户添加、删除及修改

1、 Linux组群账户分类分类法一: 1、私有组群:当创建一个用户时,若没有指定该用户属于哪个组群,那么Linux就会创建一个和该用户同名的组群,即:私有组群。 2、标准组群:也称为普通群组,标准群组可以包含多个用户账户分类法二: 1、主要群组:当一个用户账户属于多个组成员时,登陆后所属的组群便是主要群组,其它组群是次要群组,一个用户账户只能属于一个主要群组。 2、次要群组:次要...

2018-04-29 22:17:16 8847

原创 基于支持向量机的网页分类(Python+Spark实现)

网页分类问题的介绍以及数据集的下载,见基于决策树的网页分类(Python+Spark实现)import sysfrom time import timeimport pandas as pdimport matplotlib.pyplot as pltfrom pyspark import SparkConf, SparkContextfrom pyspark.mllib.class...

2018-04-22 23:11:42 1174 1

原创 基于决策树的网页分类(Python+Spark实现)

1、网页分类问题网页分类是一个经典的问题,例如:雅虎网站早期就是通过人工对网站进行分类以便于其他用户查找资料。网页分类的角度有多种,如:a、按网页类型(新闻、财经、体育、科技……);b、按网页内容:暂时性的(ephemeral):文章只是在某一段时间内对读者有意义,过了这段时间就没有意义了,如:当日股市涨跌新闻;长青的(evergreen):读者长久会对这些文章感兴趣,如:理财观念、育...

2018-04-15 23:30:35 2346

原创 Python数据预处理中的LabelEncoder与OneHotEncoder

1、LabelEncoderLabelEncoder是用来对分类型特征值进行编码,即对不连续的数值或文本进行编码。其中包含以下常用方法:fit(y) :fit可看做一本空字典,y可看作要塞到字典中的词。 fit_transform(y):相当于先进行fit再进行transform,即把y塞到字典中去以后再进行transform得到索引值。 inverse_transform(y):根...

2018-04-08 15:21:42 55440

原创 Python+Jupyter+Spark编程经验总结

Jupyter中使用TAB键加速输入Jupyter中编写程序时,有函数提示功能。在Jupyter中编写Spark程序对RDD进行操作时,在输入.之后,可以按TAB键自动补全要输入的“转换”或“行动”。例如: 输入 rdd = sc.pa之后,再按TAB键就能自动补全rdd= sc.parallelize。在eclipse环境中编写spark程序时,提示功能更好用。将程序输出按指定...

2018-04-01 23:41:57 1531

原创 pandas中的DataFrame按指定顺序输出所有列

问题:输出新建的DataFrame对象时,DataFrame中各列的显示顺序和DataFrame定义中的顺序不一致。例如:import pandas as pdgrades = [48,99,75,80,42,80,72,68,36,78]df = pd.DataFrame( {'ID': ["x%d" % r for r in range(10)],'Gender' : ['F...

2018-03-25 22:20:10 18690

原创 Windows上配置Python+Spark开发环境

1、配置过程详细配置步骤参考:Windows和PC机上搭建Spark+Python开发环境的详细步骤按照上述配置过程,当采用Anaconda 5.1 (Python3.6)+java1.7.0_79+spark2.0.1+Hadoop2.6.0进行配置时,出现如下错误:AttributeError: 'module' Object has no attribute bool_出...

2018-03-18 21:24:07 10488

原创 基金行业的概念理解

基金投资的主要优势分散化:单个人(机构)资金有限,很难有效的进行分散投资,而基金公司资金规模大,可以覆盖更多的投资标的,将风险分散。专业化:基金投资受到的限制比个人更少,且基金经理更专业,可以更快地应对市场变化。基金的种类货币型:流通性好,可很短时间内变现;债券型:稳定性好,收益稳定;股票型:风险高,可能的收益高。追求高收益——>股票型 追求稳定性——&g...

2018-03-11 23:47:49 2617

原创 CentOS网络配置文件中UUID参数释疑

1、VMware中安装多台虚拟机的步骤VMware中安装多台CentOS可参考如下步骤:先按照链接安装好CentOS,安装好后会得到一个目录,如下图所示。(注意:目录位置是自己设定的,NAT方式联网,采用dhcp自动获取IP地址)在CentOS关机状态下将CentOS 64位拷贝多份。在VMware平台界面点击文件—>打开—>转到CentOS 64 位...

2018-03-04 16:51:22 30687 2

原创 Markdown文档常用字体及颜色设置

1、字体、字号、颜色设置<font face="微软雅黑" >微软雅黑字体</font><font face="黑体" >黑体</font><font size=3 >3号字</font><font size=4 >4号字</font>

2018-02-25 18:00:06 42993 4

原创 Python分析A股市场财务报表经验总结

1、读取具体目录下的文件名或目录名import ospath_root = 'F:\\data\\A股报表大全'dirs = os.listdir(path_root)for dir in dirs: print(dir)2、csv文件内容的读取(1)取出csv文件中指定的行import csvpath_lrb_year='F:\\data\\A股报表大全\\6...

2018-02-17 20:41:24 5290

原创 张遇升的精品课总结

1、 决定寿命的因素人的寿命大概有25%是由基因决定的,但是有75%是由自己的日常生活方式决定的。这是丹麦科学家一个科学实验结果。这个实验设计得比较合理,抽取的样本是同卵双胞胎(基因完全一样),然后跟踪他们自出生以来的饮食习惯得出来的结果。2、影响寿命的平时 习惯天天要活动,王德顺,一个80岁的老头,从50岁开始坚持健身的习惯,坚持了30年,2015年上T型台展示自己强健的体魄,令人...

2018-02-11 23:52:07 698

原创 python环境下OpenCV的基本操作

图像文件读取与写入如下操作可实现将png格式的图片转化成jpg格式的图像,括号中的内容可为绝对路径,如:Windows下C:\Users\MyPic.png;Unix环境下/home/joe/MyPic.png。import cv2image = cv2.imread('MyPic.png')cv2.imwrite('MyPic.jpg',image)图像文件显示若仅使用i

2018-02-04 22:27:32 430

原创 Anaconda下特殊软件安装和配置

设置Jupyter Notebook默认目录1、打开Anaconda Prompt; 2、输入命令:jupyter notebook --generate-config 3、找到C:\Users\Username下的jupyter_notebook_config.py文件; 4、打开文件,并将文件中字段c.NotebookApp.notebook_dir = ''更改为E:\Jupyt

2018-01-26 23:30:07 1267

原创 CCF2016-2017中国计算机科学技术发展报告(总结摘录)

1、数据科学中的机器学习基础和进展报告中对数据科学从两个角度进行了定义,摘录如下: 数据科学(高层定义):数据科学关于数据的科学和研究 数据科学(学科定义)是一个融合了统计学、信息学、计算、通讯、管理以及社会学的新的交叉学科,其研究主体为数据及其环境,其目标是将数据转化为洞察力以及决策,采用的方法论以及思路是将数据转化为知识进而转化为智慧。这个定义跟我想的有点不一样,例...

2018-01-21 23:21:41 2876

原创 2018年CES展总结

CES(International Consumer Electronic Show)展是全球消费类电子最新产品秀,有助于相关企业打响国际知名度。CES的展出品预示着电子类消费产品的发展方向。现将王煜全的介绍以及网络中的一些资料总结如下:1. 中国企业在全球影响力越来越大听到中国企业在CES中的表现,真让人振奋。总的来说,中国企业在全球影响力越来越大,主要原因有以下几点。企业本身的能力越来越强,

2018-01-14 22:26:42 2735

原创 项目反应理论

项目反应理论(item response theory)是属于心理学中认知诊断常用的一种理论,即根据被测试者针对某个问题的答案来对被测者的认知状况进行估计。“项目”实质就是测试题,“反应”就是被测者的答案。也有学者称项目反应理论也是机器学习中的一个类别,即根据被测者对测试题的反应来判定被测者所属的类别。1、 项目特征曲线项目特征曲线可用来描述项目(问题)难度与区分度,即项目的难度与区分度是项目的两个

2018-01-07 11:58:59 15048 3

原创 MySQL中客户端语句使用总结

查看MySQL版本Linux下可以直接使用命令 [root@master ~]#mysql -V 或者[root@master ~]#yum list | grep mysql在MySQL客户端可以输入 mysql> status;在linux中进入客户端时也会出现MySQL的版本 [root@master ~]#mysql -uroot -pxxxxxxMySQL中数据导入与导出

2017-12-29 19:48:02 673

原创 CentOS中更改MySQL数据库默认字符集

在MySQL客户端进行查询时,若查询结果为乱码,一般是MySQL中的字符编码与文件的字符编码不一致导致的。CentOS的MySQL数据库默认字符集设置是在/etc/my.cnf文件中。根据以下语句可将MySQL中的默认字符集编码设置为utf8。[mysqld]character-set-server=utf8init_connect = 'SET NAMES utf8'collation-se

2017-12-29 15:52:24 2098

原创 MOOC教育大数据研究现状调研

研究团队目前没有看到有专门的团队专攻MOOC大数据的研究,仅有一些文章发表,并且发表这些文章的人都来自全球顶尖的高校,如:国外MIT;国内清华、北大都有相关的文章发表。可能是因为这些高校都在知名MOOC网站上开设了一些课程,能取到许多相关的数据。国际会议国内对MOOC的研究比较重视,举办了一次专门针对MOOC教育的国际会议典型论文介绍 1、 Likely to stop? Predicting

2017-12-24 22:08:41 1852

原创 成为“高维空间”的人

机器学习中的支持向量机可用于分类。当数据线性可分或弱线性可分时,便使用线性支持向量机将数据分开;当数据非线性可分时,便使用核函数将数据映射到高维空间使得数据在高维空间线性可分,并且有定理证明:一定存在一个高维空间使得数据线性可分。此定理对我的启示就是:高维空间可以做一些低维空间觉得不可能的事情。那我们能不能成为高维空间的人呢?高维到底可以有多高? 《三体》第三部开篇讲到:公元1453年,高维碎片

2017-12-17 22:40:45 2229

转载 卷积和内积

我是从支持向量机中领悟到內积运算与之前学过的卷积运算特别相似,搜索了一下,早有学者发现了这种相似。参考:卷积和內积信号处理中的一个重要运算是卷积.初学卷积的时候,往往是在连续的情形, 两个函数f(x),g(x)的卷积,是∫f(u)g(x-u)du 当然,证明卷积的一些性质并不困难,比如交换,结合等等,但是对于卷积运算的来处,初学者就不甚了了。其实,从离散的情形看卷积,或许更加清楚, 对于两个序

2017-12-13 06:50:32 13684 4

原创 面向未来的人才教育

以下主要内容来自王煜全的前哨专栏。未来社会发展趋势科学技术正在彻底改变我们社会结构,大量重复性劳动的工作将会被取代,懂得技术的人将被极大的赋能。所以,未来人才必须要掌握运用科技的能力;社会分工越来越复杂化,每个人将拥有多重身份。比如你可以是程序员、厨师和小说家。所以,未来人才需要有跨学科学习的能力。社会分工复杂,导致协同成本提高。因此,未来人才需要强大的协作沟通能力。社会发展会带来新问题,所

2017-12-10 21:02:36 415

原创 出行领域的新趋势、新科技——也许不必再为驾照难考犯愁了

新趋势从拥有一辆车到拥有一套出行解决方案社会层面的原因私家车使用率是很低的,除了上下班和接送孩子,其它时间基本闲置(还需要买停车位等)-“Y世代”(约等于80后)正在引领按使用来付费的出行风潮,而不再倾向于自己买车。据统计,近一半“Y世代”消费者喜欢使用手机应用查找交通工具以及安排出行计划。滴滴、Uber将自行车(摩拜、ofo)也加入到APP中。技术层面的原因自动驾驶和车联网的实现也是新消费

2017-12-03 21:11:22 284

原创 CentOS 7下MySQL服务启动失败的解决思路

详情参考:https://www.cnblogs.com/ivictor/p/5146247.html 但这篇文章中没有说明如何查看MySql的日志信息。查看方式:mysql日志默认放在: /var/log/mysqld.log也可通过配置文件/etc/my.cnf查看mysql错误日志存放位置.

2017-11-25 21:53:28 1951

原创 Nat模式下虚拟机与Internet的连接原理及Linux静态IP的配置

1、Nat模式下虚拟机连接Internet的原理NAT 是 Network address translate的简称。NAT技术应用在internet网关和路由器上,比如192.168.0.123这个地址要访问internet,它的数据包就要通过一个网关或者路由器,而网关或者路由器拥有一个能访问internet的ip地址,这样的网关和路由器就要在收发数据包时,对数据包的IP协议层数据进行...

2017-11-25 10:10:26 1077

原创 食品行业的新科技总结

听了王煜全对于食品行业的新科技介绍,总结如下。食品行业实际上一直有高科技,二战后,因为化肥和杂交技术的使用,世界人口从25亿增长到76亿。但据2016年联合国发布的相关报告显示,2016年全球长期食物不足的人数已经从2015年的7.77亿增加到8.15亿。据另一个报告,全球现在每年浪费的食物高达13亿顿,可以养活10亿左右的人,这样看来当前全球总体是不缺食物的,食物的输送、保存技术有待改进。美国

2017-11-19 21:24:46 1102

原创 服装行业的新科技总结

听了王煜全全球科技创新260讲,其中讲到服装行业最近的科技创新,总结如下。材料方面:格尔公司做的Gore-TeX面料,同时满足“防水、透气、防风”,被世界名牌采用,淘宝上搜索一下Gore-Tex面料制作的衣服,价格都比较高。日本的Spider和德国AMSilk做的合成蜘蛛丝,堪称史上最强纤维材料,人们研究蜘蛛丝中的成分,然后用糖、水、酵母发酵后得到类似蛋白,因其成分可控,技术人员可以通过微调成分

2017-11-12 21:27:51 2059

原创 矩阵的秩与迹

记得第一次看到“矩阵的迹”这个概念的时候就怀疑是不是作者的拼写错误,将“矩阵的秩”写成“矩阵的迹”了。实际上,它们是两个完全不同的两个概念。矩阵的迹数学定义:n×n矩阵A的对角线元素之和称为A的迹(trace),记作tr(A),即有:tr(A)=a11+...+ann=∑ni=1aiitr(A)=a_{11}+...+a_{nn}=\sum_{i=1}^n a_{ii}矩阵的迹有如下重要性质:tr(

2017-11-05 21:11:49 21007 1

R常用函数整理

R常用函数整理 列举了常用函数及用法,很好的学习R软件资料

2012-11-09

中文电子期刊检索与利用

中文电子期刊检索与利用、学习检索资源,噢也!

2012-11-09

Data Mining Practical Machine Learning Tools and Techniques Third Edition

数据挖掘,机器学习,经典著作,第三版最新。

2012-11-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除