- 博客(39)
- 资源 (6)
- 收藏
- 关注
原创 逻辑回归进行信用卡欺诈检测
利用Logistic regression进行信用卡欺诈检测,使用的是一份竞赛数据集(已脱敏处理),使用的是Python的Jupyter Notebook工具。观察数据import pandas as pdimport matplotlib.pyplot as pltimport numpy as np%matplotlib inline导入数据并查看前5行data = pd.read_csv(
2017-10-30 00:12:21 10304 2
原创 Spark Streaming累加器与广播的简单应用
package spark/** *监控网络中的数据,基于broadcast中的黑名单,对获取数据流中的单词进行过滤筛选,并统计过滤筛选出记录的个数 */import org.apache.log4j.{Level, Logger}import org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.broadcas
2017-10-03 22:42:42 2151
原创 Spark Streaming基于状态、窗口的实时数据流
与前两篇Spark Streaming的实时处理案例,原理基本一致,这里不再演示。最大的不同是,这两种方式必须设置checkpoint。 (注:模拟器前面已给出)基于状态的实时数据分析使用updateStateByKey(func)步骤:步骤1. 定义状态state 步骤2. 定义状态更新函数func 步骤3. 对DStream进行checkpoint 步骤4. 以func为参数,在DStr
2017-10-03 21:04:36 1379
原创 Spark Streaming实时处理TCP Sockets数据流
1.构建模拟器,模拟网络环境下的数据流; 2.编辑Spark Streaming应用程序,在node01提交以集群模式运行,获取node02上端口9999中的文本数据流,并每隔5s对数据流中各单词的个数进行统计。演示文档//*******************模拟器******************package sparkimport java.io.{PrintWriter}impor
2017-10-02 23:06:44 725
原创 Spark Streaming实时处理本地数据流
每隔20s监听本地文件夹“/home/hduser/Streamingtext”下新生成的文本文件,对新文件中的各单词个数进行统计/*Streamingtext下操作文件应注意以下几点:1.监控目录下的文件应该具有统一的数据格式,避免在内部解析时报错。2.文件必须是在监控目录下创建,可以通过原子性的移动或重命名操作,放入目录。3.一旦移入目录,文件就不能再修改了,如果文件是持续写入的话,新的
2017-10-02 21:52:53 2241
原创 Spark Streaming学习笔记
Spark Streaming是构建在Spark基础上的一个实时数据流处理框架。能够对流式数据进行可扩展的、高吞吐的、高容错的实时处理。批生成间隔(batch interval) 数据采集确是实时的、逐条进行的,而处理数据的单位是一批,因此需要确定一个时间间隔。系统对这个间隔内获得的数据统一操作,称为批生成时间间隔,决定了作业提交的频率,是系统调优的重要参数。Dstream(Discretiz
2017-10-02 16:28:44 217
原创 Spark SQL用户自定义函数UDF及Apache日志实例
临时UDF创建临时UDF,在SQL中使用: (注:涉及文档上一篇博文《Spark SQL基础笔记及简单案例》给出》//创建DataFramecase class Student(id: String, name : String, age: Int)val rdd=sc.textFile("hdfs://node01:9000/sqldata/students.txt").map(_.spli
2017-10-02 12:22:49 1343
原创 Spark SQL基础笔记及简单案例
Spark SQL是一个用来处理结构化数据的Spark组件,是Spark上一个分布式的SQL查询引擎,并拥有自己的SQL解析器。Spark SQL 特点:快速具有统一的数据访问方式:兼容Hive,从各种结构化数据源中读取数据基于内存的列式存储技术面向多种语言具有良好的组件兼容性Spark SQL的执行流程:步骤1.SQL解析(语法结构层面的解析)步骤2.绑定(语义层面的解析)步骤3
2017-10-01 21:48:26 613
原创 Spark-RDD笔记及集群作业实例
第一部分:RDD笔记定义:Resilient Distributed Dataset(弹性分布式数据集)RDD是Spark应用程序中的数据表示形式RDD是一种分布式的内存抽象RDD具有数据流模型的特点:自动容错、位置感知调度和可伸缩性RDD是只读的记录分区的集合,使得实现容错的开销很低RDD是高度受限的共享集合特性:分区(partition):RDD的基本组成单位 对于一个RDD,分
2017-09-26 22:18:14 336
原创 Spark安装及环境配置
往期博文讲过Hadoop集群的搭建,这次分享下Spark的安装和配置,Spark是基于Hadoop的大规模数据处理引擎。Spark的特点是基于内存的大数据综合处理框架,速度百倍于MapReduce适用于处理较多迭代次数的任务基于RDD(弹性分布式数据集)实现容错和并行提出了DAG(Directed Acyclic Graph有向无环图)支持多种语言的API(如Java、Scala、Pyth
2017-09-24 21:41:09 2721
原创 hadoop报错Name node is in safe mode
今天集群上操作出现如下错误:Cannot create directory /home/hduser/wordcount. Name node is in safe mode.安全模式。。翻了下资料,发现了解决方法 在hadoop安装目录下执行如下命令bin/hadoop dfsadmin -safemode leave即可解除安全模式Safe mode is OFFsafemode模式NameN
2017-09-24 10:26:08 365
原创 XGBoost调参demo(Python)
XGBoost我们用的是保险公司的一份数据# 各种库import pandas as pdimport numpy as npimport matplotlib.pyplot as pltfrom sklearn.linear_model import LogisticRegressionfrom sklearn.ensemble import RandomForestClassifier
2017-09-22 16:32:19 4841 1
原创 贝叶斯新闻分类demo(Python)
#pip install jiebaimport pandas as pdimport jieba数据源:http://www.sogou.com/labs/resource/ca.php df_news = pd.read_table('./data/val.txt',names=['category','theme','URL','content'],encoding='utf-8')df
2017-09-13 22:02:23 7452 3
原创 贝叶斯拼写检查器(python)
import re, collectionsdef words(text): return re.findall('[a-z]+', text.lower()) def train(features): model = collections.defaultdict(lambda: 1) for f in features: model[f] += 1 ret
2017-09-13 15:10:55 1123
原创 决策树demo(python)
%matplotlib inlineimport matplotlib.pyplot as pltimport pandas as pdfrom sklearn.datasets.california_housing import fetch_california_housinghousing = fetch_california_housing()print(housing.DESCR)h
2017-09-13 12:23:29 1136
原创 梯度下降求解逻辑回归(Python)
Logistic RegressionThe data我们将建立一个逻辑回归模型来预测一个学生是否被大学录取。假设你是一个大学系的管理员,你想根据两次考试的结果来决定每个申请人的录取机会。你有以前的申请人的历史数据,你可以用它作为逻辑回归的训练集。对于每一个培训例子,你有两个考试的申请人的分数和录取决定。为了做到这一点,我们将建立一个分类模型,根据考试成绩估计入学概率。import numpy as
2017-09-12 21:41:11 5603 3
原创 Python-基于物品的协同过滤算法(附两种算法的对比)
与上一篇UserCF数据来源一致。先贴代码ItemCF:#coding=utf-8import mathclass ItemCF: def __init__(self,basefile,testfile): self.datafile = basefile self.testfile = testfile self.readData()
2017-09-10 19:32:59 3026
原创 Python-基于用户的协同过滤算法
数据来源:https://grouplens.org/datasets/movielens/#--------------------------------------------------------# Purpose: 基于已知的训练集,"测试集"中的user的item进行评分预测,并进行用户没有接触过的物品进行推荐.#---------------------------------
2017-09-09 19:18:39 2997 7
原创 python距离计算公式
import mathimport numpy as npfrom math import sqrtx = np.array([1,3,2])y = np.array([-2,1,-1])# 相似度def cosDis (vector1,vector2): num = 0.0 xdenom = 0.0 ydenom = 0.0 for i in range
2017-09-09 19:09:00 1009
原创 Flume搭建测试
日志收集之Flumecase 1:1. wget http://archive.apache.org/dist/flume/1.6.0/apache-flume-1.6.0-bin.tar.gz2. tar -zxvf apache-flume-1.6.0-bin.tar.gz3. mv apache-flume-1.6.0 flume4. cd confvi commands.c
2017-09-08 09:53:17 249
原创 Python爬虫实战(动态网页)
上一篇介绍了静态网页的爬虫,这次我们试试动态网页怎么爬取。#指定浏览器位置chrm = R"F:\Python\chromedriver_win32\chromedriver.exe"#爬取摘要、url等信息写入数据库import sqlite3#创建数据库db = R"E:\TencentNews.db"with sqlite3.connect(db) as conn: sql =
2017-09-07 16:44:16 665
原创 Python爬虫入门案例
免责声明:此案例为Python入门静态网页新闻爬取,未对目标网站进行大批量访问,不承担任何责任。写入数据库版本:import requestsfrom bs4 import BeautifulSoupimport numpy as npimport pandas as pdimport sqlalchemyimport pymysqlpymysql_engine = sqlalchemy
2017-09-06 21:50:27 359
原创 sqoop配置与简单应用
Sqoop = SQL- to-Hadoop,是易用、并行的导入导出工具。一. 安装1.1 安装并设置环境变量 解压缩,重命名为sqoopsudo gedit /etc/profile文末添加安装路径,别忘了source一下export SQOOP_HOME=/home/hduser/sqoopexport PATH=$SQOOP_HOME/bin:$PATH1.2 修
2017-09-02 18:41:45 293
原创 Hbase安装及参数说明
1.启动hadoopstart-all.sh 2.获取并解压HBase安装包tar -zxvf hbase-0.98.9-hadoop2-bin.tar.gz cd hbase-0.98.9-hadoop23.配置conf中的文件(1)配置hbase-env.sh(修改下面环境语句的路径)export JAVA_HOME=/usr/local/java/jdk1.7.0_71/(2)配置hbas
2017-09-02 17:03:41 299
原创 Hive安装
#close firewall#ufw disable #mysql开启远程登录权限#bind-address= 127.0.0.1#解压hive-0.13.1-bin.tar.gztar xvzf hive-0.13.1-bin.tar.gz#修改目录名称为hivemv apache-hive-0.13.1-bin hive#设置环境变量sudo gedit /etc/profile
2017-09-02 11:46:17 207
原创 招聘数据分析<三>
词云分析:############# 设置工作路径****## 请使用setwd函数,设置自己的工作路径,并将上述所提到的文件放到该工作路径下***## setwd(.....)## package: readxl 用于读取Excel文件## package: ggplot2 用于绘制各类图表## package: jiebaR 用于分词## package: wordcloud2 用于
2017-09-01 14:35:44 701
原创 招聘数据分析<二>
回归分析:############# 设置工作路径****## 请使用setwd函数,设置自己的工作路径,并将上述所提到的文件放到该工作路径下***## setwd(.....)## package: ggplot2 用于绘制各类图表library(ggplot2)load("temp.rda") ## 调用描述性统计“descriptive statsics.R”的中间运行结果## 图片颜
2017-09-01 14:30:05 614
原创 招聘数据分析<一>
描述性分析部分:rm(list = ls()) ## 清空工作目录############# 设置工作路径****## 使用setwd函数,设置自己的工作路径***## setwd(.....)## package: readxl 用于读取Excel文件## package: ggplot2 用于绘制各类图表## package: jiebaR 用于分词library(readxl)
2017-09-01 14:07:09 765
原创 关联规则demo
library(arules) # association ruleslibrary(arulesViz) # data visualization of association ruleslibrary(RColorBrewer)groceries <- read.transactions("groceries.csv", format="basket", sep=",") summa
2017-09-01 13:50:33 507
原创 数据预处理demo
R笔记:#step(1): Reading datatxt=readLines("Data_Hw2.txt") #readLines: when the rows in a data files are not uniformly formattedtxt#step(2):Selecting lines containing dataI=grepl("^//",txt)Idat=txt
2017-09-01 11:12:54 414
原创 随机森林(R)
#### random forest ############install.packages('randomForest')library(randomForest) data(iris) attach(iris)table(iris$Species)class=as.factor(iris$Species)######描述 ############biplot(princom
2017-09-01 10:57:02 578
原创 聚类(R)
####聚类######随机产生三个簇点c1<-cbind(rnorm(100,2,1),rnorm(100,2,2))c2<-cbind(rnorm(80,3,1),rnorm(80,20,1))c3<-cbind(rnorm(60,15,1),rnorm(60,25,1))v=rbind(c1,c2,c3)vplot(v)cl=kmeans(v,3)clcl$itercl$
2017-09-01 10:53:28 379
原创 决策树实现(R)
###### decision tree ##########install.packages('rpart.plot')install.packages('rattle')install.packages('RColorBrewer')library(rpart)library(rattle)library(rpart.plot)library(RColorBrewer)######
2017-09-01 10:41:37 685
原创 KNN算法demo(R)
KNN算法###### knn 算法 ################## KNN 在R中使用到的包有“class包”,“gmodels包”“FNN”“rKnn”########## 以iris为例 ##############library(class)#####划分数据及,训练集,70%随机抽样######index=sample(1:nrow(iris),0.7*nrow(iris))
2017-09-01 10:36:26 581
原创 R笔记(绘图)
R笔记:setwd("F:\\R基础")getwd()#R绘图示例demo(graphics) #二维demo(persp) #三维#####1.绘图区域分割######函数par() #首先,准备绘图数据:从外部读取或随机数生成dat=read.table("online shopping.txt",header=T)attach(dat)set.seed(1234)x=
2017-09-01 10:22:34 628
原创 R笔记(简单数据处理)
R语言笔记#设定R软件当前工作目录setwd("E:/R work")#显示R软件当前工作目录getwd()#R语言数据预处理常用包安装#plyr,reshape2,lubridate, stringrinstall.packages(c("plyr","reshape2","lubridate", "stringr","foreign"))library(MASS)library(
2017-09-01 10:17:55 3888
转载 解决hao123劫持chrome主页问题
近两天隔一段时间打开chrome,主页就被加载到hao123,发现桌面快捷方式指向的目标后面带了一串“小尾巴”。排查了注册表和chrome主页设置,都没问题,判断可能是被劫持了。于是,google大法找着解决方案,如下原因分析首先检查了一下chrome的主页设置,发现没有问题,依然是原来的google.com。然后到chrome的安装目录,直接双击打开chrome程序,没有
2017-08-01 11:48:35 1613
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人