- 博客(14)
- 资源 (8)
- 收藏
- 关注
PySpark
PySpark 是 Spark 为 Python 开发者提供的 API ,位于 $SPARK_HOME/bin 目录,其依赖于 Py4J。系统环境Linux Ubuntu 14.04jdk-7u75-linux-x64hadoop-2.6.0-cdh5.4.5scala-2.10.4spark-1.6.0-bin-hadoop2.6python3.4PyCharm1.在Pycha...
2018-11-30 19:14:14 432
原创 Hadoop生态之 Spark, Pyspark
SparkSpark是一个类似于MapReduce的分布式计算框架,其核心是弹性分布式数据集,提供了比MapReduce更丰富的模型,可以快速在内存中对数据集进行多次迭代,以支持复杂的数据挖掘算法和图形计算算法安装目前Apache Spark主要支持三种分布式部署方式:分别是standalone、Spark on mesos和spark on YARN,其中,第一种类似于MapReduce ...
2018-11-30 19:13:17 945
原创 Windows下Python的 Path问题解决
1.Python Path问题的解决今天准备用python写下爬虫,发现自己的python路径没有,在cmd中打python,显示如下:但是我安装了python的打开我的python,在python交互式命令行中输入以下两行命令,显示我的python安装路径...
2018-11-27 17:20:26 8075
转载 python爬虫的基本原理以及scrapy框架的使用
正则表达式基础正则表达式用于处理字符串,拥有自己独立的语法以及一个独立的处理引擎。不同提供正则表达式的语言里正则表达式的语法都式一样。. 和 * +. 匹配任意一个字符*匹配0或多次前面出现的字符.* 表示0或无限次的"."+匹配的字符至少要出现一次^ 和$^表示以某字符开头的匹配$ 表示以某字符结尾的匹配^a.* 表示匹配任何以a开头的字符串.*k$表示匹配任何以k结...
2018-11-27 16:39:59 213
原创 Hadoop生态之数据库HBase的本地安装、基本操作以及Hbase JAVA API
What?HbaseHBase是一个分布式的,面向列的开源数据库,对应于Goole Bigtable,适合于非结构化数据存储的数据库。HBase基于列,在需要实时读写、随机访问超大规模数据集时,可以使用HBase。上图描述Hadoop Ecosystem中的各层结构。其中,HBase位于结构化存储层,Hadoop HDFS为HBase提供了高可靠性的底层存储支持。Hadoop MapR...
2018-11-26 11:04:56 778
原创 hadoop之mapreduce实例——求平均值、去重
求平均数是MapReduce比较常见的算法,求平均数的算法也比较简单,一种思路是Map端读取数据,在数据输入到Reduce之前先经过shuffle,将map函数输出的key值相同的所有的value值形成一个集合value-list,然后将输入到Reduce端,Reduce端汇总并且统计记录数,然后作商即可。具体原理如下图所示:类似于写一个正常的hadoop javaAPI 操作,过程依次是启...
2018-11-24 20:13:11 5340
原创 数据采集----网络爬虫(一)
网络爬虫(Web Crawler/Spider)数据采集的主要方式按照一定规则,自动抓取万维网信息的程序或者脚本部分或者全部抽取抓取到的信息,使数据进一步结构化合法性–Robots协议深度与广度优先* 静态和动态网页爬虫静态网页:爬虫逻辑比较简单动态网页:网页读取过程需要额外的加载过程泛用和主爬虫网络爬虫的基本架构爬取模块URL批量获取数据,模拟http请求过程抽...
2018-11-21 15:55:51 2331
原创 CentOS7安装tomcat探索
安装tomcat前需不需要安装JDK?当有请求时,tomcat会自动将jsp里面的java程序部分提取出来,调用jdk将java程序编译成class,然后再执行这个class.你可以到tomcat的work目录下看看,你可以找到从jsp里面提取出来的java程序, *_jsp.java,也有编译后的class文件, *jsp.class。所以,如果不装JDK,jsp程序就无法编译。因为jsp...
2018-11-20 16:35:53 119
原创 数据可视化 Django
Django安装在linux系统中安装Djangopip install Django此时,可以进入python环境,再终端中输入python,然后敲入以下代码,可以查看django版本管理工具Django-admin.py创建项目1.首先创建一个项目目录,然后切换到该目录下,接着用django-admin.py来创建目录这样djangofirst项目就创建完成了。看下...
2018-11-19 18:50:20 3598
原创 数据科学 学习入门
数据科学用数据的方法来研究科学生物信息,天体信息,数字地球等用科学的方法来研究数据统计学,机器学习,数据挖掘等数据分析数据类型数据的数学结构主要困难1.数据量大2.数据维数高(最难)3.数据类型复杂算法角度看处理大数据的思路1.降低算法的复杂度(随机梯度下降SGD)2.分布式计算(MapReduce)数据科学的课程体系...
2018-11-19 11:05:32 1190
转载 Hadoop HDFS原理---分布式文件系统
HDFS工作原理NameNode和Sencondary NameNode节点通过HTTP GET(N->S)和POST(S->N)发送和接受数据体系结构,主从(master/slave)存储原理:冗余数据保存(多副本)HDFS 实现目标HDFS 相关概念块默认128MNameNodeFsImagenamenode节点启动时,会将fsimage中的...
2018-11-19 10:52:10 179
原创 hadoop安装流程总结以及常用命令
hadoop安装流程主要步骤1.java环境配置因为hadoop底层是java写的,所以必须配置java环境2.配置SSH免密登录3.hadoop环境配置hadoop-env.sh中引入java4.hadoop组件配置信息HDFS配置core-site.xmlhdfs-site.xmlMapReduce配置mapred-site.xmlyarn-site.xml启动h...
2018-11-18 21:17:32 1007
原创 Hadoop生态圈以及hadoop伪分布式安装
大数据学习历程HADOOP生态圈简介HadoopHDFS分布式存储系统MapReduce分布式计算YARN分布式资源管理Spark 基于内存计算stormHive/pig 基于mapreduce(离线计算)Oozie 作业流调度系统zookeeper分布式协调服务Hbase 分布式数据库sqoop 数据库Mahouthadoop实验hadoop伪分布式安装hadoop开发插件安装最近在参加大...
2018-11-18 20:15:33 383
gitSpeedUp-win.bat
2020-02-22
anyang.rar
2019-07-08
python爬虫文档
2018-12-13
双系统工具
2018-09-18
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人