大数据
文章平均质量分 60
绝黛雨儿
做到极致便是道
展开
-
大数据的商业应用
1.社交网络数据 商务智能—帮助企业做出更好的决策 销售—对产品定制化,获得更多利润 产品设计与扩展 2.商务智能 基于数据的决策 从个人的角度转到了客户的关系网络 识别高度互联的客户 形象问题,更好的广告营销效能 免费试用吸引客户,根据得到的反馈,提升产品 对内部客户提供刺激 3.销售 偏好 兴趣–定制化销售,还可以做广告 –对于产品开发,品牌能够更好的决策 –原创 2015-08-23 15:31:59 · 1336 阅读 · 0 评论 -
阅读List
SparkR:数据科学家的新利器 阿里深度学习实践 网络爬虫+相似矩阵—技术运作流程 Cassandra+Akka+Spark分布式机器学习架构 百度大规模数据处理架构之“不平凡之路” 双11剁手幕后的阿里“黑科技” 机器学习正在听、说、读、写、看五方面重塑世界 机器学习文章 我爱机器学习网机器学习类别文章汇总 1.推荐书单 机器学习和数据挖掘的推荐书单原创 2015-10-23 10:17:09 · 443 阅读 · 0 评论 -
Hadoop问题集锦
1.文件上的锁头标志 一定要注意此处,倘若不解锁的话,会导致程序写不进去 2.jps后,发现namenode没有启动 在默认的core-site.xml~中发现了居然设置在另外一个用户,于是修改这个error一直存在(two days) 3.注意是在什么用户下启动 这种情景是,使用了sudo命令导致了,hadoop的启动是在root用户的时候启动的。原创 2015-11-13 22:10:42 · 428 阅读 · 0 评论 -
Hadoop操作记录(1)---单机(伪分布)
下文在虚拟机做过实验后,再次进行折腾,参照的是官方文档(2015.11.12)1.集群环境的搭建1.设置环境变量 java,hadoop的设置 /etc/profile执行source /etc/profile使配置文件生效 配置成功 访问共享文件夹 前提是安装了增强功能包—>>virtualbox下ubuntu访问主机共享文件夹设置oracle jdk ,不用openjdk前面仅仅设置了PATH原创 2015-11-06 16:14:04 · 921 阅读 · 1 评论 -
大数据前期准备---List
1.本地安装Hadoop和Hive2.本地安装Hbase1.在Hbase上操作数据1.创建表格 2.插入数据 3.读取数据 4.批量插入数据 5.删除表格3.安装Pig4.安装 Apache Flume 在Linux环境下安装并配置Apache Flume。最终通过“flume-ng”指令验证Flume是否安装成功 5.安装Sqoop并连接到MySQL 在Linux环境下安装并配置Sqoop原创 2015-10-29 12:12:42 · 496 阅读 · 0 评论 -
Hadoop操作记录(2)---完全分布式
承载了上一篇文章 Hadoop操作记录(1)—单机(伪分布)1.用户操作新建用户,并设定该用户的管理员权限 $是普通管员 #是系统管理员 adduser设定用户ROOT权限 gedit /etc/sudoers删除用户 user delete 用户名 文件所属用户的操作 sudo chown -R 用户:用户组 () 查看文件所属用户组 hadoop-2.7.1文件所属 Hostname 出于原创 2015-11-07 21:56:48 · 537 阅读 · 0 评论 -
搭建集群---网络化知识
在创建集群中,重启虚拟机的时候,发现IP地址发生变化,这个时候需要更改配置文件,造成的不便 学习文件搭建集群必备虚拟化网络知识VMware下的操作,但是也可以借鉴 同一个网段,连接在同一个交换机上(VMnet),方能通信 Bridge 相当于一台真实的电脑直接连接网络 NAT VMware软件默认VMnet8为NAT模式 内置NAT设置 Window的共享设置 从理论到实践,全方位认识DNS(理论篇原创 2015-11-08 11:08:39 · 368 阅读 · 0 评论 -
Hadoop本地库
1.Hadoop本地库 官方文档 查看本地库—libhadoop.so 目标平台需要的软件包 C 编译器 (GUN C Compiler) GUN Autools 工具链:autoconf,antomake libtool zlib openssl-development package(e.g. libssl-dev) zlib的安装 我使用的Linux命令原创 2015-11-06 16:30:10 · 422 阅读 · 0 评论 -
Hadoop入门简介
1.组件核心组件: MapReduce HDFS 组件: YARN HBase Hive Pig Sqoop Zookeeper Flume Oozie 2.HDFS 一次写入,多次读取 主节点(Namenode)—大型文件分割成各个小部分(数据块),主节点知道从节点上的哪个数据块可以组成完整的文件。 主节点与从节点进行持续的交流,知道从节点的可用性。 从节点(DataNode)—提供心跳信息,无心原创 2015-08-25 15:46:56 · 451 阅读 · 0 评论 -
阅读干货-大数据和Python
传送门: http://insights.thoughtworkers.org/full-stack-python/一位用javaScript的进行了前端,服务器端,MongoDB,实现了整个应用; 云基础设施—Python,java,Go DevOps —Python,Shell,Ruby,GO 网络爬虫 —Python,PHP,C++ 数据处理 —Python,R,Scala 云原创 2015-08-21 22:16:18 · 1184 阅读 · 0 评论 -
大数据处理技术
大数据的解决方法: 充足的储存能力—虚拟化存储 高速度的计算平台—多核处理器,网络计算机,内存内计算 高新能的运算平台 —容错系统 处理各种数据的能力 —分布式计算 及时定制化信息传递 —移动设备,可视化范例,实时报警 关键技术:分布式与并行计算,Hadoop。原创 2015-08-21 22:55:13 · 714 阅读 · 0 评论 -
大数据学习首页
感谢@吴彬彬老师-网易数据分析师1.线上指导识别异常: 逻辑回归分析欺诈分析和预测建模: 简单应用场景:表示出哪些订单是欺诈的,给它打上标签 可以实现上述应用的还可以借鉴: 神经网络,逻辑回归,SVM,线性回归等等推荐书籍: 《数据挖掘:概念与技术》大数据企业的应用一般都是通过多模型的对比,然后经过优化迭代的方式。除了推荐的书籍外,还可以借鉴商业公司的《数据咨询报告》。掌握各个行业的方法论原创 2015-08-18 13:52:32 · 1290 阅读 · 0 评论