自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

建世伟业的博客

大数据,爬虫,机器学习,

  • 博客(38)
  • 资源 (1)
  • 收藏
  • 关注

原创 Java JVM 运行机制及基本原理

JVM的基础概念JVM的中文名称叫Java虚拟机,它是由软件技术模拟出计算机运行的一个虚拟的计算机。JVM也充当着一个翻译官的角色,我们编写出的Java程序,是不能够被操作系统所直接识别的,这时候JVM的作用就体现出来了,它负责把我们的程序翻译给系统“听”,告诉它我们的程序需要做什么操作。我们都知道Java的程序需要经过编译后,产生.Class文件,JVM才能识别并运行它,JVM针对...

2018-09-05 20:19:48 209

原创 ubuntu虚拟机通过设置桥接模式上网——超级简单

步骤一:首先在桌面右键用管理员权限打开VMware Workstation,选择右上角‘编辑’—‘虚拟网络编辑器’,选择VMnet0,桥接你的网卡,如下图所示。 步骤二:打开你的ubuntu虚拟机,点击‘编辑虚拟机设置’,将‘网络适配器’改成桥接模式,如下图所示:步骤三:这时直接开启此虚拟机,即可上网。 ...

2018-08-29 22:24:28 11982 8

原创 scala学习笔记

Scala简介Scala是一门现代的多范式编程语言,平滑地集成了面向对象和函数式语言的特性,旨在以简练、优雅的方式来表达常用编程模式。Scala的设计吸收借鉴了许多种编程语言的思想,只有很少量特点是Scala自己独有的。Scala语言的名称来自于“可伸展的语言”,从写个小脚本到建立个大系统的编程任务均可胜任。Scala运行于Java平台(JVM,Java 虚拟机)上,并兼容现有的Java程序...

2018-08-29 22:13:13 488

转载 集群环境配置遇到的问题

集群环境配置遇到的问题公司给分配了3台新的虚拟机,打算从头配置一下zookeeper,kafka,storm,hadoop,hbase的环境。(以后配置mongodb,spark的时候,在陆续更新,目前(2016/4/21)只接触这么多)配置的过程中发生了一些问题。这里共享一下笔记。当然,我做配置的时候的原则是:只配置知道的,不知道的就不去配置。虽然会发生问题,但是在解决问题的过程...

2018-08-25 18:59:13 561

原创 Python每天练习——小程序007

题目007_1:一个整数,它加上100后是一个完全平方数,再加上168又是一个完全平方数,请问该数是多少?程序分析1:假设该数为 x。1、则:x + 100 = , x + 100 + 168 = 2、计算等式:= (m + n)(m - n) = 1683、设置: m + n = i,m - n = j,i * j =168,i 和 j 至少一个是偶数4、可得: m...

2018-08-23 09:17:57 292

原创 大数据方向的实习招聘要求

时间过的很快,不知不觉就升研二了,根据对自己的规划,准备研二下学期去实习半年。从入学到现在,在大数据这个方向学习已经一年了,最近看了一下关于大数据方向的实习生招聘要求,对照一下自己的知识技能掌握情况,发现很多招聘里明确要求掌握的技能和知识还没掌握好,有一些甚至还没开始接触学习。可能之前自己没有一种紧迫感,学习松松散散,效率不高所导致。接下来还有半年的时间,希望自己能够抓紧时间,争取早点打牢基础,去...

2018-08-22 23:50:03 5505 2

原创 机器学习——决策树算法

决策树的基本概念决策树算法是一类常用的机器学习算法,在分类问题中,决策树算法通过样本中某一维属性的值,将样本划分到不同的类别中去。 选择最佳划分的标准  选择划分数据集的特征的时候存在一定的顺序,选择的依据是这一维特征对数据的划分更具区分性,在决策树算法中,通常有这些标准:信息增益、增益率和基尼系数。熵是度量样本集合纯度最常用的一种指标, 信息增益信息熵表示的是不...

2018-08-22 22:54:50 394

原创 机器学习——随机森林(RF)算法

随机森林定义随机森林是一种比较新的机器学习模型。经典的机器学习模型是神经网络,有半个多世纪的历史了。神经网络预测精确,但是计算量很大。上世纪八十年代Breiman等人发明分类树的算法(Breiman et al. 1984),通过反复二分数据进行分类或回归,计算量大大降低。2001年Breiman把分类树组合成随机森林(Breiman 2001a),即通过对数据集的采样生成多个不同的数据集,...

2018-08-22 22:54:28 13756 5

原创 机器学习笔记——贝叶斯分类算法

简介贝叶斯定理是关于随机事件A和B的条件概率的一则定理。通常,事件A在事件B(发生)的条件下的概率,与事件B在事件A(发生)的条件下的概率是不一样的;然而,这两者之间有确实的关系,贝叶斯法则就是这种关系的陈述。 基于贝叶斯决策理论的分类方法之朴素贝叶斯优点:在数据较少的情况下仍然有效,可以处理多类别问题 缺点:对于输入数据的准备方式较为敏感 适用数据类型:标称型数据。朴素贝...

2018-08-21 13:50:52 268

转载 机器学习——用朴素贝叶斯进行文本分类

作者:龙心尘 && 寒小阳时间:2016年1月。出处:http://blog.csdn.net/longxinchen_ml/article/details/50597149http://blog.csdn.net/han_xiaoyang/article/details/50616559声明:版权所有,转载请联系作者并注明出处1. 引言贝叶斯方法是一个...

2018-08-21 09:09:44 1382

原创 阿里移动推荐算法大赛——基于用户-行为记录,即user_id - behaviour_type的数据集处理

 关于题目回顾与数据初探,可参考:天池离线赛 - 移动推荐算法(一):题目与数据解析,本文目的是想找出数据集中用户加购物车的行为behavior_type = 3与最终的购买行为behavior_type = 4是否是强关联的,为了进行分析,我们基于原始数据集构建一个新的数据集:act_34={<'time', 'user_id', 'item_id', 'behavior_type...

2018-08-18 17:03:49 2295

原创 Python学习笔记——datatime和pandas.to_datetime

1、datetime是Python处理日期和时间的标准库。 获取当前日期和时间我们先看如何获取当前日期和时间:>>> from datetime import datetime>>> now = datetime.now() # 获取当前datetime>>> print(now)2015-05-18 16:28:07...

2018-08-18 16:29:55 18425

原创 阿里移动推荐算法大赛——点击购买转化率

我们的目标是预测购买事件的发生,在这样的业务背景下,我们先关注一下CTR指数(操作购买转化率),即用户购买商品与需要操作的次数的平均比率。通过pandas统计value_counts()统计behavior_type数据列可得:CTR = 购买操作样本数 / 样本总数 = 232579 / 23291027 = 0.009986 ≈ 1%即用户平均下来大约要进行100次操作(各种商品的点...

2018-08-16 21:19:22 1349

原创 阿里移动推荐算法大赛——数据加载测试

 阿里移动推荐算法大赛的数据集fresh_comp_offline下载,下面分别测试加载该文件夹下的两个CSV文件所用时间。加载tianchi_fresh_comp_train_user.csv,结果如下:# -*- coding: utf-8 -* '''@author: csw'''import osimport sysimport timeitimp...

2018-08-16 16:47:08 569

原创 Spark学习笔记6——数据读取与保存

读写前的准备 我用的是ubuntu系统,打开“终端”,进入Shell命令提示符状态,然后,在“/usr/local/spark/mycode”目录下,新建一个wordcount子目录,并在“/usr/local/spark/mycode/wordcount”目录下新建一个包含了一些语句的文本文件word.txt(你可以在文本文件中随意输入一些单词,用空格隔开)。打开“终端”(可以在Linux...

2018-08-15 20:40:10 687

原创 Python每天练习——小程序006

题目006:企业发放的奖金根据利润(I)的多少来提成:低于或等于10万元时,奖金可提10%;利润高于10万元,低于20万元时,低于10万元的部分按10%提成,高于10万元的部分,可提成7.5%;20万到40万之间时,高于20万元的部分,可提成5%;40万到60万之间时高于40万元的部分,可提成3%;60万到100万之间时,高于60万元的部分,可提成1.5%;高于100万元时,超过100万元的部分...

2018-08-13 09:34:02 148

原创 Python每天练习——小程序005

005 题: 纯文本文件 student.txt为学生信息, 里面的内容(包括花括号)如下所示:{"1":["张三",150,120,100],"2":["李四",90,99,95],"3":["王五",60,66,68]} 请将上述内容写到 student.xls 文件中,如下图所示:代码如下: import xlwtimport json

2018-08-12 23:50:02 165

原创 MySQL入门笔记

目录1、MySQL 简介 2、MySQL 安装3、MySQL 管理4、MySQL 创建数据库5、MySQL 删除数据库6、MySQL 选择数据库7、MySQL 创建数据表8、MySQL 删除数据表9、MySQL 插入数据10、MySQL 查询数据1、MySQL 简介Mysql是最流行的关系型数据库管理系统,在WEB应用方面MySQL是最好的RDBMS...

2018-08-12 15:46:47 1055

原创 Python每天练习——小程序004

题目004:将你的 QQ 头像(或者微博头像)右上角加上红色的数字,类似于微信未读信息数量那种提示效果。 类似于图中效果# -*- coding: UTF-8 -*-from PIL import Image,ImageFont,ImageDrawdef add_num(in_file,num,out_file='result.jpg'): # 打开图片,建立画布 ...

2018-08-12 11:19:55 136

原创 Python每天练习——小程序003

题目003:将 002 题生成的 200 个激活码(或者优惠券)保存到 MySQL 关系型数据库和 Redis 非关系型数据库中。思路: 新手建议先去学学python如何操作mysql数据库,这个教程很清晰教你如何连接数据库,如何创建数据库表,还有插入,查询,更新,删除等操作。想简单学习一下mysql,推荐一个挺好的教程MySQL教程。本练习运行环境为ubuntu+pycharm+P...

2018-08-11 17:01:27 171

原创 Python每天练习——小程序002

 2018.8.10题目002:做为 Apple Store App 独立开发者,你要搞限时促销,为你的应用生成激活码(或者优惠券),使用 Python 如何生成 200 个激活码(或者优惠券)?方法一 :python uuid 文档def generateCode(): import uuid f = open("code.txt", "w") co...

2018-08-10 21:59:37 236

原创 Python每天练习——小程序001

                                         Python 练习100题  2018.8.10题目001:有四个数字:1、2、3、4,能组成多少个互不相同且无重复数字的三位数?各是多少? def one(): d=[] for i in range (1, 5): for j in range (1, 5):...

2018-08-10 20:38:04 222

原创 Python练习声明

本人曾经系统地学习过C语言,但是由于缺少实战,感觉自己有诸多不足。因此想通过《Python 100例》,从头回顾Python语言,争取做到每天编写一个Python语言小程序。     ...

2018-08-10 19:16:23 182

转载 Python学习笔记——pandas IO tools 之csv文件读写

读取csv文件:pd.read_csv(),写入csv文件:pd.to_csv() pandas还可以读取一下文件: read_csv, read_excel, read_hdf, read_sql, read_json, read_msgpack (experimental), read_html, read_gbq (experimental), read_stata, ...

2018-08-10 17:19:14 326

原创 机器学习笔记——TensorFlow

TensorFlow 编程学习目标:学习 TensorFlow 编程模型的基础知识,重点了解以下概念: 张量 指令 图 会话 构建一个简单的 TensorFlow 程序,使用该程序绘制一个默认图并创建一个运行该图的会话概念概览TensorFlow 的名称源自张量,张量是任意维度的数组。借助 TensorFlow,您可以操控具有大量维度的张量。即便如此,在大多数情况...

2018-08-10 17:18:04 150

转载 Python学习笔记——pandas处理数据

python数据分析工具pandas中DataFrame和Series作为主要的数据结构. 本文主要是介绍如何对DataFrame数据进行操作并结合一个实例测试操作函数。 1)查看DataFrame数据及属性df_obj = DataFrame() #创建DataFrame对象df_obj.dtypes #查看各行的数据格式df_obj['列名'].astype(int)#转换某列的数...

2018-08-08 10:29:47 766

转载 机器学习笔记——机器学习基础

                                         第一章 机器学习基础机器学习用途广泛:当人们点击搜索引擎返回给人们的链接,搜索引擎能够记录这次点击并通过机器学习优化下次搜索结果; 通过机器学习可以在后台自动检测过滤垃圾广告邮件; 基于以往的统计知识,可以知道用户很多习惯,从而为用户提供更好的选择; 通过手写识别软件识别正确的手写地址加快邮件分拣等。人们生活中的...

2018-08-06 10:59:41 220

转载 阿里移动推荐算法大赛——开篇介绍

大赛简介本次赛题为《阿里移动推荐算法》,以阿里巴巴移动电商平台的真实用户-商品行为数据为基础,同时提供移动时代特有的位置信息,而参赛队伍则需要通过大数据和算法构面向建移动电子商务的商品推荐模型。希望参赛队伍能够挖掘数据背后丰富的内涵,为移动用户在合适的时间、合适的地点精准推荐合适的内容。题目解析在真实的业务场景下,我们往往需要对所有商品的一个子集构建个性化推荐模型。在完成这件任务的过程...

2018-07-23 13:19:19 701

转载 阿里移动推荐算法大赛——推荐算法

推荐系统从框架的角度看,推荐系统基本可以分为数据层、触发层、融合过滤层和排序层。数据层包括数据生成和数据存储,主要是利用各种数据处理工具对原始日志进行清洗,处理成格式化的数据,落地到不同类型的存储系统中,供下游的算法和模型使用。候选集触发层主要是从用户的历史行为、实时行为、地理位置等角度利用各种触发策略产生推荐的候选集。候选集融合和过滤层有两个功能,一是对出发层产生的不同候选集进行融合,提...

2018-07-23 13:18:05 6229 1

转载 阿里移动推荐算法大赛——特征工程

原文出处:https://www.zhihu.com/question/29316149/answer/1101596471 特征工程是什么?  有这么一句话在业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。那特征工程到底是什么呢?顾名思义,其本质是一项工程活动,目的是最大限度地从原始数据中提取特征以供算法和模型使用。通过总结和归纳,人们认为特征工程包括以下...

2018-07-22 15:11:40 1662

转载 Python学习笔记——pandas入门

pandas简介pandas : Python数据分析模块pandas是为了解决数据分析任务而创建的,纳入了大量的库和标准数据模型,提供了高效地操作大型数据集所需的工具。pandas中的数据结构 :Series: 一维数组,类似于python中的基本数据结构list,区别是series只允许存储相同的数据类型,这样可以更有效的使用内存,提高运算效率。就像数据库中的列数据。 Dat...

2018-07-21 15:29:36 636

原创 Python学习笔记——测试加载数据所需时间

程序的执行时间测试天猫天池大赛——阿里移动推荐算法给出的D数据集包含2千多万条样本,文件大小约1G;P数据集包含60多万条记录,文件大小约10M。可以进一步测试数据全部加载所需时间,从而对数据量有个更直观的感受(这里采用python-pandas,测试代码如下)。结果显示,在我的计算机环境下,D数据集载入pandas-dataframe耗时约17s,P数据集载入耗时不到1s。(可以看到数据集的...

2018-07-21 14:53:48 1017

转载 Spark学习笔记5——容错机制

容错 指的是一个系统在部分模块出现故障时还能否持续的对外提供服务,一个高可用的系统应该具有很高的容错性;对于一个大的集群系统来说,机器故障、网络异常等都是很常见的,Spark这样的大型分布式计算集群提供了很多的容错机制来提高整个系统的可用性。一般来说,分布式数据集的容错性有两种方式:数据检查点和记录数据的更新。 面向大规模数据分析,数据检查点操作成本很高,需要通过数据中心的网络连接在机器之间...

2018-07-20 09:31:25 322

转载 Spark学习笔记4——spark运行机制

Spark架构及运行机制Spark运行架构包括集群资源管理器(Cluster Manager)、运行作业任务的工作节点(Worker Node)、每个应用的任务控制节点(Driver)和每个工作节点上负责具体任务的执行进程(Executor)。其中,集群资源管理器可以是Spark自带的资源管理器,也可以是YARN或Mesos等资源管理框架。与Hadoop MapReduce计算框架相比,Sp...

2018-07-19 21:50:21 323

转载 Spark学习笔记3——spark运行模式

Spark三种运行模式1.standalone模式与MapReduce1.0框架类似,Spark框架本身也自带了完整的资源调度管理服务,可以独立部署到一个集群中,而不需要依赖其他系统来为其提供资源管理调度服务。在架构的设计上,Spark与MapReduce1.0完全一致,都是由一个Master和若干个Slave构成,并且以槽(slot)作为资源分配单位。不同的是,Spark中的槽不再像Ma...

2018-07-18 17:04:49 383

原创 Spark学习笔记2——RDD编程

1.RDD设计背景在实际应用中,存在许多迭代式算法(比如机器学习、图算法等)和交互式数据挖掘工具,这些应用场景的共同之处是,不同计算阶段之间会重用中间结果,即一个阶段的输出结果会作为下一个阶段的输入。但是,目前的MapReduce框架都是把中间结果写入到HDFS中,带来了大量的数据复制、磁盘IO和序列化开销。虽然,类似Pregel等图计算框架也是将结果保存在内存当中,但是,这些框架只能支持一...

2018-07-17 23:02:03 774

原创 Spark学习笔记1——开篇介绍

1、Spark简介Spark是美国加州大学伯克利分校的AMP实验室(主要创始人lester和Matei)开发的通用的大数据处理框架。Spark应用程序可以使用R语言、Java、Scala和Python进行编写,极少使用R语言编写Spark程序,Java和Scala语言编写的Spark程序的执行效率是相同的,但Java语言写的代码量多,Scala简洁优雅,但可读性不如Java,Python...

2018-07-17 20:50:56 389

转载 练习1:python爬虫-爬取拉勾网职位

0. 前言本文从拉勾网爬取深圳市数据分析的职位信息,并以CSV格式保存至电脑, 之后进行数据清洗, 生成词云,进行描述统计和回归分析,最终得出结论.1. 用到的软件包Python版本: Python3.6requests: 下载网页math: 向上取整time: 暂停进程pandas:数据分析并保存为csv文件matplotlib:画图statsmodels:统...

2018-07-15 16:06:08 772 2

STM32F10x硬件开发使用入门_cn.pdf

STM32F10x硬件开发使用入门_cn.pdf 学习ARM一个号文档。里面有详细的说明。简单不枯燥。

2015-11-06

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除