2018年11月_rainyrainbow

12月 11月 10月 08月 07月

PySpark

PySpark 是 Spark 为 Python 开发者提供的 API ，位于 $SPARK_HOME/bin 目录，其依赖于 Py4J。系统环境Linux Ubuntu 14.04jdk-7u75-linux-x64hadoop-2.6.0-cdh5.4.5scala-2.10.4spark-1.6.0-bin-hadoop2.6python3.4PyCharm1.在Pycha...

2018-11-30 19:14:14 432

SparkSpark是一个类似于MapReduce的分布式计算框架，其核心是弹性分布式数据集，提供了比MapReduce更丰富的模型，可以快速在内存中对数据集进行多次迭代，以支持复杂的数据挖掘算法和图形计算算法安装目前Apache Spark主要支持三种分布式部署方式：分别是standalone、Spark on mesos和spark on YARN，其中，第一种类似于MapReduce ...

2018-11-30 19:13:17 945

原创 Windows下Python的 Path问题解决

1.Python Path问题的解决今天准备用python写下爬虫，发现自己的python路径没有，在cmd中打python，显示如下：但是我安装了python的打开我的python，在python交互式命令行中输入以下两行命令，显示我的python安装路径...

2018-11-27 17:20:26 8075

转载 python爬虫的基本原理以及scrapy框架的使用

正则表达式基础正则表达式用于处理字符串，拥有自己独立的语法以及一个独立的处理引擎。不同提供正则表达式的语言里正则表达式的语法都式一样。. 和 * +. 匹配任意一个字符*匹配0或多次前面出现的字符.* 表示0或无限次的&amp;amp;amp;quot;.&amp;amp;amp;quot;+匹配的字符至少要出现一次^ 和$^表示以某字符开头的匹配$ 表示以某字符结尾的匹配^a.* 表示匹配任何以a开头的字符串.*k$表示匹配任何以k结...

2018-11-27 16:39:59 213

原创 Hadoop生态之数据库HBase的本地安装、基本操作以及Hbase JAVA API

What？HbaseHBase是一个分布式的，面向列的开源数据库，对应于Goole Bigtable，适合于非结构化数据存储的数据库。HBase基于列，在需要实时读写、随机访问超大规模数据集时，可以使用HBase。上图描述Hadoop Ecosystem中的各层结构。其中，HBase位于结构化存储层，Hadoop HDFS为HBase提供了高可靠性的底层存储支持。Hadoop MapR...

2018-11-26 11:04:56 778

原创 hadoop之mapreduce实例——求平均值、去重

求平均数是MapReduce比较常见的算法，求平均数的算法也比较简单，一种思路是Map端读取数据，在数据输入到Reduce之前先经过shuffle，将map函数输出的key值相同的所有的value值形成一个集合value-list，然后将输入到Reduce端，Reduce端汇总并且统计记录数，然后作商即可。具体原理如下图所示：类似于写一个正常的hadoop javaAPI 操作，过程依次是启...

2018-11-24 20:13:11 5340

原创 hadoop常见操作以及简单的Hadoop javaAPI实现

2018-11-24 19:42:45 21625 4

原创数据采集----网络爬虫（一）

网络爬虫（Web Crawler/Spider）数据采集的主要方式按照一定规则，自动抓取万维网信息的程序或者脚本部分或者全部抽取抓取到的信息，使数据进一步结构化合法性–Robots协议深度与广度优先* 静态和动态网页爬虫静态网页：爬虫逻辑比较简单动态网页：网页读取过程需要额外的加载过程泛用和主爬虫网络爬虫的基本架构爬取模块URL批量获取数据，模拟http请求过程抽...

2018-11-21 15:55:51 2331

原创 CentOS7安装tomcat探索

安装tomcat前需不需要安装JDK？当有请求时,tomcat会自动将jsp里面的java程序部分提取出来,调用jdk将java程序编译成class,然后再执行这个class.你可以到tomcat的work目录下看看,你可以找到从jsp里面提取出来的java程序, *_jsp.java,也有编译后的class文件, *jsp.class。所以，如果不装JDK，jsp程序就无法编译。因为jsp...

2018-11-20 16:35:53 119

原创数据可视化 Django

Django安装在linux系统中安装Djangopip install Django此时，可以进入python环境，再终端中输入python,然后敲入以下代码，可以查看django版本管理工具Django-admin.py创建项目1.首先创建一个项目目录，然后切换到该目录下，接着用django-admin.py来创建目录这样djangofirst项目就创建完成了。看下...

2018-11-19 18:50:20 3598

原创数据科学学习入门

数据科学用数据的方法来研究科学生物信息，天体信息，数字地球等用科学的方法来研究数据统计学，机器学习，数据挖掘等数据分析数据类型数据的数学结构主要困难1.数据量大2.数据维数高（最难）3.数据类型复杂算法角度看处理大数据的思路1.降低算法的复杂度（随机梯度下降SGD）2.分布式计算(MapReduce）数据科学的课程体系...

2018-11-19 11:05:32 1190

转载 Hadoop HDFS原理---分布式文件系统

HDFS工作原理NameNode和Sencondary NameNode节点通过HTTP GET（N->S）和POST(S->N)发送和接受数据体系结构，主从（master/slave）存储原理：冗余数据保存（多副本）HDFS 实现目标HDFS 相关概念块默认128MNameNodeFsImagenamenode节点启动时，会将fsimage中的...

2018-11-19 10:52:10 179

原创 hadoop安装流程总结以及常用命令

hadoop安装流程主要步骤1.java环境配置因为hadoop底层是java写的，所以必须配置java环境2.配置SSH免密登录3.hadoop环境配置hadoop-env.sh中引入java4.hadoop组件配置信息HDFS配置core-site.xmlhdfs-site.xmlMapReduce配置mapred-site.xmlyarn-site.xml启动h...

2018-11-18 21:17:32 1007

原创 Hadoop生态圈以及hadoop伪分布式安装

大数据学习历程HADOOP生态圈简介HadoopHDFS分布式存储系统MapReduce分布式计算YARN分布式资源管理Spark 基于内存计算stormHive/pig 基于mapreduce（离线计算）Oozie 作业流调度系统zookeeper分布式协调服务Hbase 分布式数据库sqoop 数据库Mahouthadoop实验hadoop伪分布式安装hadoop开发插件安装最近在参加大...

2018-11-18 20:15:33 383

gitSpeedUp-win.bat

git速度太慢怎么办？用这个，是写好的，git加速代码，win10下载运行即可 git速度太慢怎么办？用这个，是写好的，git加速代码，win10下载运行即可 git速度太慢怎么办？用这个，是写好的，git加速代码，win10下载运行即可 git速度太慢怎么办？用这个，是写好的，git加速代码，win10下载运行即可

2020-02-22

罗兰贝格工具箱.ppt

好用高效的ppt工具箱模板，罗兰贝尔工具箱ppt

2019-07-19

简单的飘窗.rar

简易网页飘窗，js实现代码。

2019-07-08

anyang.rar

简易仿造安阳师范学院制作的学校介绍页面。单页设计，web样式，HTML.,CSS,DIV盒子模型网页设计简易仿造安阳师范学院制作的学校介绍页面。单页设计，web样式，HTML.,CSS,DIV盒子模型网页设计简易仿造安阳师范学院制作的学校介绍页面。单页设计，web样式，HTML.,CSS,DIV盒子模型网页设计简易仿造安阳师范学院制作的学校介绍页面。单页设计，web样式，HTML.,CSS,DIV盒子模型网页设计

2019-07-08

c#网络爬虫爬取智联招聘.rar

c#爬虫爬取智联招聘信息

2019-06-27

大数据数据分析案例

titanic大数据数据分析案例，jupyter notebook 原码说明非常详细，带有数据集，代码，分析图表，特征工程分析

2018-12-23

python爬虫文档

python爬虫与项目实战，网络爬虫是一个自动提取网页的程序，它为搜索引擎从万维网上下载网页，是搜索引擎的重要组成。随着网络的迅速发展，万维网成为大量信息的载体，如何有效地提取并利用这些信息成为一个巨大的挑战。搜索引擎(Search Engine)，例如传统的通用搜索引擎AltaVista，Yahoo!和Google等，作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南。但是，这些通用性搜索引擎也存在着一定的局限性，如： (1)不同领域、不同背景的用户往往具有不同的检索目的和需求，通用搜索引擎所返回的结果包含大量用户不关心的网页。 (2)通用搜索引擎的目标是尽可能大的网络覆盖率，有限的搜索引擎服务器资源与无限的网络数据资源之间的矛盾将进一步加深。 (3)万维网数据形式的丰富和网络技术的不断发展，图片、数据库、音频、视频多媒体等不同数据大量出现，通用搜索引擎往往对这些信息含量密集且具有一定结构的数据无能为力，不能很好地发现和获取。 (4)通用搜索引擎大多提供基于关键字的检索，难以支持根据语义信息提出的查询。网络爬虫为了解决上述问题，定向抓取相关网页资源的聚焦爬虫应运而生。聚焦爬虫是一个自动下载网页的程序，它根据既定的抓取目标，有选择的访问万维网上的网页与相关的链接，获取所需要的信息。与通用爬虫(general purpose web crawler)不同，聚焦爬虫并不追求大的覆盖，而将目标定为抓取与某一特定主题内容相关的网页，为面向主题的用户查询准备数据资源。传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂，需要根据一定的网页分析算法过滤与主题无关的链接，保留有用的链接并将其放入等待抓取的URL队列。然后，它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL，并重复上述过程，直到达到系统的某一条件时停止。另外，所有被爬虫抓取的网页将会被系统存贮，进行一定的分析、过滤，并建立索引，以便之后的查询和检索；对于聚焦爬虫来说，这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。

2018-12-13

双系统工具

NT6 HDD Installer是一款体积小巧，功能齐全的硬盘安装工具，不需要使用光驱或者U盘引导，不过需要当前的系统没有坏掉，当然如果有光驱我也会选择用 NT6 HDD Installer 因为实在是方便，可以支持X86和X64的系统，可以格式化C盘装成纯净的系统，也可以装成多系统，安装windows7像光盘一样安装，不用进修复计算机后输入指令。 NT6 HDD Installer(硬盘安装工具) V3.1.4 绿色版　　NT6 HDD Installer，也叫NT6硬盘安装工具，是第三方软件，最大的特点是简化操作步骤。NT6 HDD Installer的设计目的是为了帮助没有光驱或U盘的用户。　　NT是微软的新技术，其windows系统的内部版本也都是NT开头的，NT6就是第六代的NT，其中包括NT6.0的vista和2008 server，以及NT6.1的Win7和2008 server R2，还有测试阶段的NT6.2也就是Win8。　　目前最新版本为3.1.4，修正了在Windows 8并且处于GPT磁盘下运行时的一个错误。优点　　一、安全：由于使用的是添加引导项而不是旧方法的修改引导项的方法，所以就算少数的机器不兼容grub4dos而无法进入安装界面，也不影响进入原系统。　　二、通用：本方法对原系统是XP或VISTA都可以，并且原系统和要新装的系统没有32位或64位的限制。　　三、方便：提取ISO中的安装文件只一次提取至同一位置，而无需分位置提取。特别提示　　WIN7在安装过程和安装结果相对VISTA和WIN2008有不少改进。如果用本方法安装WIN7，下面两种情况一样，第二步重启系统进Vista Hard Disk Installer后，无需进“修复计算机”和“命令提示符”，直接开始安装，全部过程和光盘一样直接安装，当然同样不推荐装在安装程序所在分区。　　注：本文采用的是MSDN版的VISTA安装盘ISO，OEM原版（如果带有修复计算机选项的也可以）或修改版（太杂太乱）不在本方法之内。　　注：MSDN版体积小/功能全/在OEM机器上安装后导入证书和更换密匙（或安装过程中输入）后的激活和相应OEM激活结果一样，所以我只备MSDN。使用方法　　硬盘安装Windows 8/7/2008 R2 　　一、将准备好的系统镜像ISO文件解压至一非系统分区的根目录。注意一定要是根目录！！非系统分区就是比如你的系统盘是C盘，那么解压到除C盘以下的其它盘，解压方法可以直接右击.iso文件用WinRAR解压。　　二、下载安装NT6 HDD Installer。其实不需要安装，直接双击打开即可，提示以管理员身份运行，当然选“是”，程序界面如下：　　按下“1”选择安装。提示发现安装文件并且处理完成，如下图： NT6 HDD Installer(硬盘安装工具) V3.1.4 绿色版　　键盘按“2”重启系统。 NT6 HDD Installer(硬盘安装工具) V3.1.4 绿色版　　三、在启动选项中选择“nt6 hdd installer mode 1”进入，如下图： NT6 HDD Installer(硬盘安装工具) V3.1.4 绿色版　　接下来的安装方法就和光盘安装一样了，这里不再详述，有需要的朋友可以参考Windows 8安装方法及全程截图。　　硬盘安装Windows 2008/Vista 　　现在还有人安装Vista系统的话，那就傻了。要安装2008的童鞋请选择Windows Server 2008 R2。所以，这两个系统基本上没人会安装，但还是提一下，与上面的方法不同的是，重启选择nt6 hdd installer进入安装界面后不选择“开始安装”，而是点击左下角的“修复计算机”，这里如果提示修复启动项，请选择“否”，搜索硬盘系统后出现已安装系统的话点中间空白处，使出现的旧系统栏不要变成蓝色，再选择“命令提示符”，如在前期准备中安装程序放在D盘，那么键入d：\sources\setup回车，剩下的操作就和光盘安装一样了，格式化C盘装纯净单系统或装双系统都没有问题。　　卸载NT6 HDD Installer 　　如果没有新安装系统，每次启动系统都会出现NT6 HDD Installer mode 1和mode 2的选项，想要卸载的话也很简单，重新运行程序，选择“2”即可成功删除。 NT6 HDD Installer(硬盘安装工具) V3.1.4 绿色版　　最后，提供官方完整的图文安装说明 NT6 HDD Installer(硬盘安装工具) V3.1.4 绿色版注意事项　　1、不支持Windows XP/2003/2000的安装，上面已经讲得很清楚，NT6！　　2、mode 1和mode 2的区别。两种方式应该如何选择呢？模式1为grub4dos方式，小部分机器有可能不兼容grub4dos；模式2为微软自带的引导方式，兼容性更好。但如果原系统为Windows XP/2003/2000时模式1添加启动项的安全性高于模式2，此时推荐选择安装模式1。当原系统为Windows 7/8/2008/2008 R2/Vista时进入系统安装界面可靠性高于模式1，此时推荐使用模式2。　　3、本机有系统并且没有遭受破坏的情况下，不推荐采用WinPE系统进入安装，因为不保证硬盘的原有引导不受破坏。

2018-09-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

rainyrainbow的博客