- 博客(195)
- 资源 (5)
- 问答 (2)
- 收藏
- 关注
原创 用贝叶斯实现拼写检查器(Python3详细源码可运行)
用贝叶斯实现拼写检查器:依据文档总的词的概率计算当前错误输入单词情况下应该正确输入的词。对于贝叶斯的原理,再次不做过多介绍,建议原理自己推到一遍,根本在于:由果索因。相关博客:https://blog.csdn.net/qq_25948717/article/details/81744277Python3源码:代码中好多注释已经非常完善,自己找一篇英文文献txt即可。#!/usr...
2018-11-25 19:01:55
3414
1
原创 支持向量机算法的实现和应用(Python3超详细的源码实现+图介绍)
支持向量机算法的实现和应用,因为自己推到过SVM,建议自己推到一遍, 这里不对SVM原理做详细的说明。原理公式推到推荐看:https://blog.csdn.net/jcjx0315/article/details/61929439#!/usr/bin/env python# encoding: utf-8"""@Company:华中科技大学电气学院聚变与等离子研究所@versi...
2018-11-25 15:39:33
5349
1
原创 通过使用各种算法(线性回归,逻辑回归,随机森林,继承算法)预测泰坦尼克号上的某个人是否获救
Python源码:#!/usr/bin/env python# encoding: utf-8"""@Company:华中科技大学电气学院聚变与等离子研究所@version: V1.0@author: Victor@contact: 1650996069@qq.com@software: PyCharm@file: Taitannic.py@time: 2018/11/20...
2018-11-20 19:40:51
1723
原创 利用Python sklearn库里的决策树模型生成决策树图片以及测试分类的准确度
本案例利用sklearn自带的数据集,选取房子经纬度作为特征参数来对标签进行分类。也用切分的数据训练模型来进行特征参数的选择得到最好的测试准确度。Python源码:#!/usr/bin/env python# encoding: utf-8"""@Company:华中科技大学电气学院聚变与等离子研究所@version: V1.0@author: Victor@contac...
2018-11-17 20:59:34
9624
1
原创 实战:利用Python sklearn库里的逻辑回归模型训练数据---建立模型
本案例主要是通过对不均衡的28万组数据建立模型,分析预测欺诈用户,采用sigmod函数作为损失函数,采用交叉验证的方法和l1正交法则,比对了不同惩罚函数下的模型的召回率,也通过预测值和实际值做出混淆矩阵更加直观看到各种预测结果。也比较了sigmod函数下的不同阈值下的模型预测的精度和召回率。以下是部分数据格式,代码中对每一步如何做以及为什么做了详细的说明。可能有某些库的版本不同会出现错...
2018-11-16 20:12:34
4538
1
原创 利用python实现梯度下降和逻辑回归原理(Python详细源码:预测学生是否被录取)
本案例主要是:建立逻辑回归模型预测一个学生是否被大学录取,没有详细介绍算法推到,读者可查阅其他博客理解梯度下降算法的实现:https://blog.csdn.net/wangliang0633/article/details/79082901数据格式如下:第三列表示录取状态,0---未录取,1---已录取,前两列是成绩源码:#!/usr/bin/env python# en...
2018-11-12 18:57:25
3294
原创 Spark SQL一步步分析Wifi探针商业大数据案例
该项目主要实现的主要功能:一是通过探针设备采集可监测范围内的手机MAC地址、与探针距离、时间、地理位置等信息:二是探针采集的数据可以定时发送到服务端保存:三是利用大数据技术对数据进行人流量等指标的分析。最终以合理的方式展示数据处理结果。数据收集数据收集由服务器和探针设备共同完成,探针采集数据并发送到服务器,服务器接收探针设备的数据,处理成定格式保存至分布式文件系统(HDFS...
2018-11-11 15:46:11
2640
3
转载 TCP/IP协议--11 TCP 交互数据流、成块数据流
目前建立在TCP协议上的网络协议特别多,有telnet,ssh,有ftp,有http等。这些协议又可以根据数据吞吐量来大致分成两大类:(1)交互数据类型,如telnet,ssh,这种类型的协议在大多数情况下只是做小流量的数据交换,比如说按一下键盘,回显一些文字。(2)数据成块类型,例如ftp,这种类型的协议要求TCP能尽量的运载数据,把数据的吞吐量做到最大,并尽可能的提高效率。针对这 两种...
2018-11-06 09:28:00
203
转载 TCP/IP协议--10 TCP 连接的建立与终止
TCP连接的建立可以简单的称为三次握手,而连接的中止则可以叫做四次握手。TCP是一个面向连接的协议,所以在连接双方发送数据之前,都需要首先建立一条连接。这和前面讲到的协议完全不同。前面讲的所有协议都只是发送数据而已,大多数都不关心发送的数据是不是送到,UDP尤其明显,从编程的角度来说,UDP编程也要简单的多----UDP都不用考虑数据分片。书中用telnet登陆退出来解释TCP协议连接的建立和...
2018-11-06 09:12:29
237
转载 TCP/IP协议--09 DNS域名系统
一台机器要靠IP地址和MAC地址,其中,MAC地址可以通过ARP协议得到,所以这对用户是透明的,但是IP地址就不行,无论如何用户都需要用一个指定的IP来访问一台计算机,而IP地址又非常不好记,于是就出现了DNS系统。DNS系统介绍DNS的全称是Domain Name System。它负责把FQDN(就是以"."分隔结尾的名字)翻译成一个IP。最初的DNS系统使用的是一个巨大的hosts.t...
2018-11-06 09:01:21
178
转载 TCP/IP协议--08 TCP协议
简要介绍TCP和UDP处在同一层---传输层,但是TCP和UDP最不同的地方是,TCP提供了一种可靠的数据传输服务,TCP是面向连接的,也就是说,利用TCP通信的两台主机首先要经历一个“拨打电话”的过程,等到通信准备结束才开始传输数据,最后结束通话。所以TCP要比UDP可靠的多,UDP是把数据直接发出去,而不管对方是不是在收信,就算是UDP无法送达,也不会产生ICMP差错报文,这一经时重申了很...
2018-11-05 13:48:11
218
转载 TCP/IP协议--07 广播,多播IGMP协议
单播,多播,广播的介绍单播(unicast)单播是说,对特定的主机进行数据传送。例如给某一个主机发送IP数据包。这时候,数据链路层给出的数据头里面是非常具体的目的地址,对于以太网来 说,就是网卡的MAC地址(不是FF-FF-FF-FF-FF-FF这样的地址)。现在的具有路由功能的主机应该可以将单播数据定向转发,而目的主机的网 络接口则可以过滤掉和自己MAC地址不一致的数据。广播(bro...
2018-11-05 13:36:56
283
转载 TCP/IP协议--06 UDP协议
UDP简要介绍UDP是传输层协议,和TCP协议处于一个分层中,但是与TCP协议不同,UDP协议并不提供超时重传,出错重传等功能,也就是说其是不可靠的协议。 UDP协议头UDP端口号由于很多软件需要用到UDP协议,所以UDP协议必须通过某个标志用以区分不同的程序所需要的数据包。端口号的功能就在于此...
2018-11-05 13:33:09
838
转载 TCP/IP协议--05 IP选路
静态IP选路一个简单的路由表选路是IP层最重要的一个功能之一。前面的部分已经简单的讲过路由器是通过何种规则来根据IP数据包的IP地址来选择路由。这里就不重复了。首先来看看一个简单的系统路由表。 对于一个给定的路由器,可以打印出五种不同的flag。 U表明该路由可用。 G表明该路由是到一个网关。如果没有这个标志,说明和Destination是直连的,而相应的...
2018-11-05 13:21:01
207
转载 TCP/IP协议--04 ICMP,ping,traceroute
IMCP协议介绍当传送IP数据包发生错误--比如主机不可达,路由不可达等等,ICMP协议将会把错误信息封包,然后传送回给主机。给主机一个处理错误的机会,这 也就是为什么说建立在IP层以上的协议是可能做到安全的原因。ICMP数据包由8bit的错误类型和8bit的代码和16bit的校验和组成。而前 16bit就组成了ICMP所要传递的信息。ICMP协议大致分为两类,一种是查询报文,一种是差错报...
2018-11-05 12:50:47
246
转载 TCP/IP协议--03 IP、ARP、RARP协议
三个协议处于同一层,ARP协议用来找到目标主机的Ethernet网卡Mac地址,IP则承载要发送的消息。数据链路层可以从ARP得到数据的传送信息,而从IP得到要传输的数据信息。IP协议IP协议是TCP/IP协议的核心,所有的TCP,UDP,IMCP,IGCP的数据都以IP数据格式传输。要注意的是,IP不是可靠的协议,这是说,IP协议没有提供一种数据未传达以后的处理机制--这被认为是上层协议...
2018-11-05 12:39:01
653
转载 TCP/IP协议--02数据链路层
数据链路层有三个目的: 为IP模块发送和 接收IP数据报。 为ARP模块发送ARP请求和接收ARP应答。 为RARP发送RARP请 求和接收RARP应答 ip大家都听说过。至于ARP和RARP,ARP叫做地址解析协议,是用IP地址换MAC地址的一种协议,而RARP则叫做逆地址解析协议,在tcp/ip协议的后面章节会介绍它们(在局域网里面用ARP协议可以很容易的搞瘫痪网...
2018-11-05 12:15:36
595
转载 TCP/IP协议--01介绍
在世界上各地,各种各样的电脑运行着各自不同的操作系统为大家服务,这些电脑在表达同一种信息的时候所使用的方法是千差万别。就好像圣经中上帝打乱了各地人的口音,让他们无法合作一样。计算机使用者意识到,计算机只是单兵作战并不会发挥太大的作用。只有把它们联合起来,电脑才会发挥出它最大的潜力。于是人们就想方设法的用电线把电脑连接到了一起。但是简单的连到一起是远远不够的,就好像语言不同的两个人互相见了面,完...
2018-11-05 12:05:42
179
原创 Linux下的Swap(交换空间)的介绍
Linux的内存和虚拟内存的介绍见:https://blog.csdn.net/qq_25948717/article/details/83745228虚拟内存和交换空间,这两个概念要和操作系统一起说,window下的“虚拟内存”实际上是存在磁盘上的页面文件,和linux的交换空间概念一样,都是物理上实际存在的东西,如果内存够用,没有缺页,你禁掉这两个东西不会影响虚拟存储器;然而撇开操作...
2018-11-05 11:11:36
2081
原创 Linux下的RAM,ROM,虚拟内存介绍
其实RAM就是高速缓存,通电就具有记忆功能,断电就失去,也就是运行内存,就是用来存放临时文件,而“内存”就是RAM的一种物理硬件,广义来说两者也可以说是同一概念。而虚拟内存是系统利用硬盘分出来的具有辅助内存工作的虚拟RAM,不是硬件,但又依靠硬盘。简单的说 RAM是你一般买电脑时看到的那个内存,电脑运行一些程序,系统时都会装入这个内存。。。ROM是固定的内存,只是电脑启动时会读取用...
2018-11-05 10:56:40
2637
原创 Spark SQL操作多种数据源
Spark SQL的默认数据源格式为parquet格式。数据源为Parquet文件时,SparkSQL 可以方便地进行读取,甚至可以直接在Parquet 文件上执行查询操作。修改配置项spark.sqlsources.default,可以修改默认数据源格式。以下示例通过通用的load/save方法对parquet文件进行读取、存储。Parquet先上传文件:正如前面所讲...
2018-11-04 17:01:09
3210
原创 Spark SQL中RDDs转化为DataFrame(详细全面)
除了调用SparkSesion.read().json/csv/orc/parqutjdbc 方法从各种外部结构化数据源创建DataFrame对象外,Spark SQL还支持将已有的RDD转化为DataFrame对象,但是需要注意的是,并不是由任意类型对象组成的RDD均可转化为DataFrame 对象,只有当组成RDD[T]的每一个T对象内部具有公有且鲜明的字段结构时,才能隐式或显式地总结...
2018-11-04 12:46:32
6705
1
原创 Spark-RDD-04 checkpoint容错机制
我们了解到合理地将RDD持久化/缓存,不仅直接避免了RDD的重复计算导致的资原浪费和占用,还提升了RDD的容错性,而且间接提升了分析任务的完成效率,那么为什么又会需要基于checkpoint的容错机制,在什么情况下需要设置checkpoint呢?对RDD进行ceckpoin操作,会将RDD直接存储到磁盘上,而不是内存,从而实现真正的数据持久化。checkpoint实际上对RDD lin...
2018-11-03 16:48:57
563
原创 Spark-RDD-02基本操作详解
Spark中RDD是一个不可变的分布式对象集合,每个RDD都被分为多个分区,这些分区被分发到集群的不同的节点中进行计算。SparkContext是Spark的编程主入口点,可以被用于在集群中创建RDDs,在spark-shell中被系统默认创建为sc。两种创建RDD的方式:(1)调用SparkContext的parallelize()方法将数据并行化成RDD ...
2018-11-03 15:48:18
773
原创 Spark1.6 SQL下的UDF--SplitCount(切分字符串并计算数组长度)
UDF(用户自定义函数):将自己写的函数加入到用户 会话,和内置函数一样使用注意本案例适合spark1.X版的,spark2.x的版本不适用。=====================================================================================package com.victor.spark.sqlUDFim...
2018-10-26 18:45:14
3022
原创 基IDEA开发Spark的Maven项目--Scala语言
Maven管理项目在JavaEE普遍使用,开发Spark项目也不例外,而Scala语言开发Spark项目的首选。因此需要构建Maven-Scala项目来开发Spark项目,本文采用的工具是IntelliJ IDEA 2018,IDEA工具越来越被大家认可,开发java, python ,scala 支持都非常好下载链接 : https://www.jetbrains.com/idea/down...
2018-10-25 22:04:20
648
原创 Spark SQL操作Hive实战
在目前企业级 Spark大数据开发中,大多数情况下都是采用Hive来作为数据仓库的。Spark提供了对Hive的支持, Spark通过HiveContext可以直接操作Hive中的数据。基于HiveContext,、我们可以使用sql/hql两种方式来编写SQL语句对Hive进行操作,包括:创建表、删除表、往表中导入数据、以及对表中的数据进行CRUD(増、删、改、査)操作。下面就开始动...
2018-10-24 22:30:10
2737
1
原创 Spark SQL:加载和保存数据实战
Spark SQL中可以对各种数据源进行读取和处理:Parquet、Hive、Json、Hbase。相应也有数据的保存和加载的方法。加载:首先将数据文件上传到HDFS中:hdfs dfs -put localfile hdfs_filepeople.json是spark的examples/src/main/resource自带的文件:启动spark-shell,记得启动之前要启...
2018-10-22 21:53:32
409
原创 Spark-IDEA创建Spark项目(scala)
安装JDK、Scala、IDEA见我的其他博客有详细的介绍。启动idea:进入到某个文件夹:File-NewProject:Scala-IDEAProject Name:File-Project Structure-Modules:新建文件夹,设为source添加Library:scala SDK: Java Library:选择$SPA...
2018-10-20 22:55:29
1934
原创 Spark基础之WordCount和DataFrame实战(超级详细)
首先将数据文件上传至hdfs,数据格式产生见:https://blog.csdn.net/qq_25948717/article/details/83113861网页查看:启动交互式界面:启动之前启动hadoop和hive服务启动Spark集群:进入到sbin:执行:./start-all.sh启动日志管理:./start-history-server.sh ...
2018-10-17 17:37:57
1833
原创 Python产生People.json训练数据
因为spark作业中需要大量数据集,又无法下载,所以自己用python生成相应格式的数据:产生的数据格式如下图:代码如下去:#!/usr/bin/env python# encoding: utf-8"""@Company:华中科技大学电气学院聚变与等离子研究所@version: V1.0@author: Victor@contact: 1650996069@qq.co...
2018-10-17 17:10:03
1135
原创 Spark SQL实战查询网页数据分析
Spark以及Hive安装见我的博客:https://blog.csdn.net/qq_25948717/article/details/80758713 https://blog.csdn.net/qq_25948717/article/details/81054411使用Spark ...
2018-10-16 16:57:38
2115
原创 hive实战分析网页搜索数据
hive安装教程见:https://blog.csdn.net/qq_25948717/article/details/81054411该文章只讲分析数据:first of all,到搜狗实验室下载用户查询日志:http://www.sogou.com/labs/resource/q.php数据格式:第一列:搜索时间,第二列:用户ID,第三列:用户在输入框的搜索内容, ...
2018-10-16 14:17:57
1081
原创 scala-基础之隐式转换、隐式参数、隐式类-08
用IDEA创建maven项目后,在main中新建scala目录,File->Project Structure->Modules设置scala目录为sources,再在Libraries中添加Scala SDK。在scla中新建com.victor.scala包,新建Implict.scalapackage com.victor.scala/** * Compan...
2018-10-14 17:06:43
179
原创 scala-基础之集合和高阶函数-07
做spark开发 会使用很多spark的高阶函数 所以就在linux服务上使用scala高阶函数,集群又82个节点,我取node40-37为搭建的hadoop集群,node40是主节点,node39-37是datanode。ssh node40切换到node40后;输入scala,进入命令界面操作。安装教程网上很多,特别简单。申明一个集合:注意List不能是list,里面可以不是同类型...
2018-10-14 16:15:55
259
原创 scala-基础之apply用法-06
创建:UsageOfApply.scalapackage org.victor.scala.base/** * Company: Huazhong University of science and technology * 华中科技大学电气学院聚变与等离子体研究所 * Version: V1.0 * Author: Victor * Contact: 16509...
2018-10-12 22:15:34
238
原创 scala-基础之抽象类-05
创建AbstractScala.scalapackage org.victor.scala.base/** * Company: Huazhong University of science and technology * 华中科技大学电气学院聚变与等离子体研究所 * Version: V1.0 * Author: Victor * Contact: 16509...
2018-10-12 21:35:27
164
原创 scala-基础之类继承-04
创建ExtendsScala.scala类 package org.victor.scala.base/** * Company: Huazhong University of science and technology * 华中科技大学电气学院聚变与等离子体研究所 * Version: V1.0 * Author: Victor * Contact: 16...
2018-10-12 21:04:13
251
原创 scala-基础之class-03
创建scala类名为OOPInScala.scala ,并增加object OOPInScala package org.victor.scala.base/** * Company: Huazhong University of science and technology * 华中科技大学电气学院聚变与等离子体研究所 * Version: V1.0 * Aut...
2018-10-12 20:12:02
190
原创 scala-基础之表达式-02
创建一个scala类ExpressionDemo.scala 并增加object ExpressionDemo和main方法package org.yexin.scala.base/** * Company: Huazhong University of science and technology * 华中科技大学电气学院聚变与等离子体研究所 * Version: V1.0...
2018-10-12 19:36:21
202
Python可变对象与不可变对象
2018-09-03
hadoop运行气象数据案例,最终结果时map输出结果
2018-07-14
hadoop集群启动后网页上看不到datanode节点信息
2018-05-15
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅