- 博客(53)
- 资源 (28)
- 收藏
- 关注
转载 mongodb中的副本集搭建实践(转自:http://www.cnblogs.com/visionwang/p/3290435.html)
准备运行1个主节点,2个从节点,从节点中其中是一个是仲裁节点(Arb)。sudo mongod --replSet application --dbpath /data/node1/ --port 9927 --oplogSize 1024sudo mongod --replSet application --dbpath /data/node2/ --port 9928 --oplogSize
2017-07-31 22:24:35 882
原创 Elasticsearch中的document数据格式,简单的集群管理,商品的索引的CRUD操作(学习资料记录)
1、Document数据格式面向文档的搜索分析引擎 (1)应用系统的数据结构都是面向对象的,复杂的。 (2)对象数据存储到数据库中,只能拆解开来,变为扁平的多张表,每次查询的时候还得还原回对象格式,相当麻烦。 **(3)**ES是面向文档的,文档中存储的数据结构,与面向对象的数据结构是一样的,基于这种文档数据结构,ES可以提供复杂的索引,全文检索,分析聚合等功能。 **(4)**ES的doc
2017-07-31 22:21:31 2593
原创 ElasticSearch安装,ES启动,检查ES是否成功,Kibana下载和安装,Kibana的使用
1、安装JDK,至少1.8.0_73以上版本,java -version关于JDK安装,可以参考:http://blog.csdn.net/tototuzuoquan/article/details/181881092、下载和解压缩Elasticsearch安装包其中Elasticsearch的下载地址是: https://www.elastic.co/downloads 可以下载Elasti
2017-07-20 23:54:58 28248 1
原创 lucene和elasticsearch的前世今生、elasticsearch的核心概念、elasticsearch核心概念 vs. 数据库核心概念(来自学习资料)
1、Lucene和elasticsearch的前世今生 lucene,最先进、功能最强大的搜索库,直接基于lucene开发,非常复杂,api复杂(实现一些简单的功能,写大量的java代码),需要深入理解原理(各种索引结构) (1)分布式的文档存储引擎。 (2)分布式的搜索引擎如分析引擎。 (3)分布式,支持PB级数据。 开箱即用,优秀的默认参
2017-07-20 00:52:27 1176 1
原创 Elasticsearch的功能,Elasticsearch的适用场景,Elasticsearch的特点(来自学习资料)
1.Elasticsearch的功能(1)分布式的搜索引擎和数据分析引擎 搜索:百度,网站的站内搜索,IT系统的检索 数据分析:电商网站,最近7天牙膏这种商品销量排名前10的商家有哪些;新闻网站,最近1个月访问量排名前3的新闻版块是哪些 特点总结:分布式,搜索,数据分析(2):全文检索,结构化检索,数据分析 全文检索:我想搜索商品名称包含牙膏
2017-07-19 16:49:42 4010 1
原创 Elasticsearch概述、ES概念、什么是搜索、全文检索、Elasticsearch功能,什么是distributed document store(来自网络+学习资料)
1.Elasticsearch概述Elasticsearch是一个分布式、高性能、高可用、可伸缩的搜索和分析系统。 以下是来自百度百度的介绍: ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。Elasticsearch是用Java开发的,并作为Apache许可条款下的开放源码发布,是当前流行的企
2017-07-19 15:59:23 8596 1
转载 python:beautifulSoup学习(来自学习资料)
罗列问题: 1、beautifulSoup是什么 是一个能够快速从html或者xml文档中获取数据的类库。 官方的说是,能够帮你节省一天或者几天的开发时间。 2、beautifulSoup如何安装 Pip install beautifulSoup4(如果是Python3.x就是用这个) 旧版本:beautifulSoup3 Pip install beautifulSoup 3、
2017-07-18 15:51:49 670 1
转载 Java + 腾讯企业邮箱 + javamail + SSL 发送邮件(转载:http://www.cnblogs.com/LUA123/p/5575134.html)
说实话腾讯的企业邮箱真心不错!腾讯企业邮箱官网:http://exmail.qq.com/login/新用户注册:http://exmail.qq.com/onlinesell/intro 点击开通你跟着步骤走就行了,没啥难的,如果你没有域名,你就去买一个呗,也花不了多少钱的。注册成功后,是这个页面,并且会有一个弹窗告诉你一些信息现在你点击添加成员,因为你不添加成员的话你是无法发送邮件的。完成后是
2017-07-18 12:47:28 38487 1
原创 Python爬虫项目,获取所有网站上的新闻,并保存到数据库中,解析html网页等(未完待续)
1、需求说明需求: 爬取虎嗅网站的所有新闻,并保存到数据库中。 http://www.huxiu.com技术: 1、爬虫 获取服务器的资源(urllib) 解析html网页(BeautifulSoup) 2、数据库技术 数据库 MySQLdb 业务逻辑的分析: (1)、虎嗅网站的新闻,包括首页和分页信息(下一页) (2)、需要从首页的资源和分页的资源中获取每个新闻的url连接
2017-07-17 20:19:46 3917 1
原创 Python3.x的mysqlclient的安装、Python操作mysql,python连接MySQL数据库,python创建数据库表,带有事务的操作,CRUD
1、数据库操作1.1准备工作:1、安装一个mysql数据库软件 2、创建一个数据库,test 3、在python的环境安装一个模块:MySQLdb1.2 安装mysql的连接包第一种:工具安装 Python3.x版本:Pip install mysqlclient Python2.x 版本:pip install mysql-python错误 在win7-64bit的环境下会有错误:una
2017-07-17 19:00:51 16116 2
原创 Python邮件发送案例
发送邮件:发送邮件的几个要素: 内容: 发件人(发件人的名称、发件人的邮箱地址) 收件人(收件人的名称、收件人的邮箱地址) 邮件的名称 邮件内容(文件邮件(文字和图片)、HTML邮件) 服务器: smtp服务器地址:smtp.toto.cn 账户:xxxx 密码:****发送邮件的包:
2017-07-17 15:56:30 938
原创 Python中的urllib,urllib三种不同的请求方式
1、urllib获取服务器的资源 自定义爬虫的重要组件获取百度首页的资源:#3.x的标准写法import urllib.requestimport urllib.parse#百度的首页from bs4 import BeautifulSoupurl = "http://www.baidu.com/"#发起一个request请求,得到返回对象res = urllib.request.url
2017-07-17 14:50:22 1324 1
原创 禅道安装
linux一键安装包内置了apache, php, mysql这些应用程序,只需要下载解压缩即可运行禅道。 从7.3版本开始,linux一键安装包分为32位和64位两个包,请大家根据操作系统的情况下载相应的包。一、安装 1、将安装包直接解压到/opt目录下,不要解压到别的目录再拷贝到/opt/,因为这样会导致文件的所有者和读写权限改变,也不要解压后把整个目录777权限。 可以使用命令: tar
2017-07-17 10:39:25 680
原创 python创建线程
创建线程:import threadingdef run(param1,param2): while True: print("我是一个线程....." + param1)#创建一个线程,需要线程运行对的方法,并且给一个名称。#可以根据需求,给定参数thread1 = threading.Thread(target=run,name="线程1",args=("123","
2017-07-15 00:06:01 3557 2
原创 Python tcp编程,TCP服务端和TCP客户端代码编写
Python网络编程 两种模式: 一种tcp可靠连接,能够保证数据不丢失 一种udp 不关心数据是否会丢失,在乎传输效率TCP编程 一点:服务端 二点:客户端客户端如何连接服务端,保证传输的数据可靠呢? 第一次握手:客户端发送报文,连接服务端 第二次握手:服务端发送报文,你可以连接 第三次握手:客户端发送确认报文,我真的要连接服务端的编写:
2017-07-15 00:03:51 2409 1
原创 Python文件操作,时间日期操作,collections增强,Deque(类似java的LinkedList),OrderedDict,Counter
1、文件操作的案例:#文件操作的三种方式#r = read 读取文件#w = write 写入文件,覆盖掉#a = append 追加写入,不会覆盖原有的内容#读文件f = open("E://wordcount//input//1.txt","r")data = f.read()print(data)#读文件 一行一行的读取path = "E://wordcount//input/
2017-07-14 19:19:52 713
原创 Python面向对象,类,继承,多态及鸭子类型,获取类的类型,方法和属性(类似java的反射)
1、创建类的代码:#在Java中,所有的最终父类都是Object#在python中也是,一个类没有直接的父类就写入objectclass Animal(object): #在python中init方法相当于构造器 #参数列表中,第一个位置是第一个默认的叫做self.也就是实例本身,相当于java的this def __init__(self,name,age,sex):
2017-07-14 18:22:41 1182
原创 使用IDEA编写Python程序,插件安装python插件,安装python SDK运行Python程序
1、创建任意一类项目,比如Maven项目 2、手动编写一个test.py的文件。 3、将test.py的文件放到src目录下。 4、在IDEA的编辑器中会提示Install plugin.(直接点击安装) 5、安装完成之后重启一下IDEA,再次创建项目的时候,会发现多出一项以下选项: 6、配置Project SDK 7、如果在上一步没有选择。在创建好项目之后,可以按照下面的方式进
2017-07-14 18:11:04 10886 2
原创 Python基础,基本类型(整型,浮点数等)数据结构(List,dic(Map),Set,Tuple),控制语句(if,for,while,continue or break):来自学习资料
3、Python 基础3.1、语法Python的语法比较简单,采用缩进方式。 i = -100 if i >= 0: print(i) else: print(-i)3.2、基本类型3.2.1、整数Python可以处理任意大小的整数,当然包括负整数,在程序中的表示方法和数学上的写法一模一样。 3.2.2、浮点数浮点数也就是小数,之所以称为浮点数,是因为按照科学记数法表示
2017-07-14 17:57:23 930 1
原创 Python安装(Windows下安装/Linux下安装)
1、准备工作1.1、运行环境课程中:Windows下的运行环境1.2、Python是什么(1)Python是一种面向对象的解释型计算机程序设计语言,由荷兰人Guido van Rossum于1989年发明,第一个公开发行版发行于1991年。 机器语言(01代码)—>汇编语言(伪机器语言)—>高级语言(C语言)—>面向对象(Java、Python)—>… 编译性语言:有一个单独的编译过程,将
2017-07-14 12:56:02 1940 1
转载 python数据类型详解(转自:http://www.cnblogs.com/linjiqin/p/3608541.html)
目录1、字符串2、布尔类型3、整数4、浮点数5、数字6、列表7、元组8、字典9、日期1、字符串1.1、如何在Python中使用字符串a、使用单引号(')用单引号括起来表示字符串,例如:str='this is string';print str;b、使用双引号(")双引号中的字符串与单引号中的字符串用法完全相同,例如:str="this is string";print str;c、使用三引号('
2017-07-14 12:04:20 887 1
转载 Spark-on-YARN (来自学习笔记)
Spark-on-YARN1. 官方文档http://spark.apache.org/docs/latest/running-on-yarn.html2. 配置安装1.安装hadoop:需要安装HDFS模块和YARN模块,HDFS必须安装,spark运行时要把jar包存放到HDFS上。2.安装Spark:解压Spark安装程序到一台服务器上,修改spark-env.sh配置文件,sp
2017-07-14 11:13:12 656
原创 Spark Streaming从Kafka中拉取数据,并且使用过“窗口函数”统计一些流量信息
一、应用案例场景: 在Spark Streaming中,我们通常计算的是一段时间间隔内的数据。比如http://blog.csdn.net/tototuzuoquan/article/details/75094540这个案例中,统计单词出现次数时,每间隔5秒钟进行实时从Kafka中读取数据。但是当遇到一些其它的场景,比如一些流量计算类的,可能日志信息是30秒收集并被生成一次。但是我们
2017-07-14 11:03:49 8802 1
原创 Spark Streaming从Kafka中获取数据,并进行实时单词统计,统计URL出现的次数
1、创建Maven项目创建的过程参考:http://blog.csdn.net/tototuzuoquan/article/details/745713742、启动KafkaA:安装kafka集群:http://blog.csdn.net/tototuzuoquan/article/details/73430874 B:创建topic等:http://blog.csdn.net/tototuzuo
2017-07-13 23:57:23 6896 1
原创 Spark Streaming之:Flume监控目录下文件内容变化,然后Spark Streaming实时监听Flume,然后从其上拉取数据,并计算出结果
1、安装flume 2、到Spark-Streaming官网下载poll方式的Sink 3、将sink放入到flume的lib包里面 4、先启动flume(多个),然后在启动Streaming程序下载spark-flume http://spark.apache.org/documentation.html 到Spark-1.6.2中 http://spark.apache.org/do
2017-07-13 17:00:26 2437 1
原创 Spark Streaming实现实时WordCount,DStream的使用,updateStateByKey(func)实现累计计算单词出现频率
一、 实战1.用Spark Streaming实现实时WordCount 架构图: 说明:在hadoop1:9999下的nc上发送消息,消费端接收消息,然后并进行单词统计计算。* 2.安装并启动生成者 * 首先在一台Linux(ip:192.168.10.101)上用YUM安装nc工具 yum install -y nc启动一个服务端并监听9999端口 nc -lk 99992.编
2017-07-13 12:00:46 2288 1
原创 Spark Streaming介绍,DStream,DStream相关操作(来自学习资料)
一、 Spark Streaming介绍1. SparkStreaming概述1.1. 什么是Spark StreamingSpark Streaming类似于Apache Storm,用于流式数据的处理。根据其官方文档介绍,Spark Streaming有高吞吐量和容错能力强等特点。SparkStreaming支持的数据输入源很多,例如:Kafka、Flume、Twitter、ZeroMQ和简单
2017-07-12 20:28:50 2609 1
原创 Spark-Sql整合hive,在spark-sql命令和spark-shell命令下执行sql命令和整合调用hive
1.安装hive 如果想创建一个数据库用户,并且为数据库赋值权限,可以参考:http://blog.csdn.net/tototuzuoquan/article/details/527855042.将配置好的hive-site.xml、core-site.xml、hdfs-site.xml放入$SPARK_HOME/conf目录下[root@hadoop1 conf]# cd /home/tuzq
2017-07-12 11:21:43 13452 2
原创 Spark-SQL从MySQL中加载数据以及将数据写入到mysql中(Spark Shell方式,Spark SQL程序)
1. JDBCSpark SQL可以通过JDBC从关系型数据库中读取数据的方式创建DataFrame,通过对DataFrame一系列的计算后,还可以将数据再写回关系型数据库中。1.1. 从MySQL中加载数据(Spark Shell方式)1.启动Spark Shell,必须指定mysql连接驱动jar包[root@hadoop1 spark-2.1.1-bin-hadoop2.7]# bin/spa
2017-07-11 18:50:32 18677 4
原创 Spark-sql:以编程方式执行Spark SQL查询(通过反射的方式推断出Schema,通过StrutType直接指定Schema)
1、编写Spark SQL查询语句在这之前创建Maven项目。创建的过程如:http://blog.csdn.net/tototuzuoquan/article/details/74571374在这里:http://blog.csdn.net/tototuzuoquan/article/details/74907124,可以知道Spark Shell中使用SQL完成查询,下面通过在自定义程序中编写S
2017-07-10 21:11:22 1726 1
转载 spark sql基本使用方法介绍(转载)
spark sql基本使用方法介绍 Spark中可以通过spark sql 直接查询Hive或impala中的数据,一、启动方法 /data/spark-1.4.0-bin-cdh4/bin/spark-sql –master spark://master:7077 –total-executor-cores 10 –executor-memory 1g –executor-cores 2注
2017-07-10 18:30:20 1350
原创 Spark SQL概述,DataFrames,创建DataFrames的案例,DataFrame常用操作(DSL风格语法),sql风格语法
一、 Spark SQL1. Spark SQL概述1.1. 什么是Spark SQL Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。 1.2. 为什么要学习Spark SQL 我们已经学习了Hive,它是将Hive SQL转换成MapReduce然后提交到集群上执行,大大简化了编写MapReduce
2017-07-09 23:34:33 3246 2
原创 spark的源码编译
编译spark源码并导入到IDEA中一、 目的1. 根据需要自定义编译spark相应的模块 2. 修改spark源码并重新编译spark二、 环境需求1. 操作系统为CentOS6.x 64bit,安装了桌面 2. 内存4G以上最佳 3. 下载IDEA的Linux版本,用于修改Spark源码三、 步骤1. 安装JDK 2. 安装Maven 3. 下载spark源码 教学中会使用spark
2017-07-09 18:40:40 661 1
原创 Spark远程调试配置,在IDEA中的配置
关于Spark集群部署参考:http://blog.csdn.net/tototuzuoquan/article/details/74481570一、Spark远程调试配置:#调试Master,在master节点的spark-env.sh中添加SPARK_MASTER_OPTS变量export SPARK_MASTER_OPTS="-Xdebug -Xrunjdwp:transport=dt_so
2017-07-09 14:36:47 2005 1
转载 Spark编程指引(四)----共享变量(广播变量和累加器)
转自:http://blog.csdn.net/happyanger6/article/details/46576831共享变量 通常情况下,当向Spark操作(如map,reduce)传递一个函数时,它会在一个远程集群节点上执行,它会使用函数中所有变量的副本。这些变量被复制到所有的机器上,远程机器上并没有被更新的变量会向驱动程序回传。在任务之间使用通用的,支持读写的共享变量是低效的。尽管如此,S
2017-07-09 13:59:23 569 1
原创 Spark查找某个IP的归属地,二分算法,try{}catch{}的使用,将结果存MySQL数据库
1、创建Maven工程调整Maven仓库所在的位置,具体参考:http://blog.csdn.net/tototuzuoquan/article/details/745713742、编写Pom文件<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xml
2017-07-09 12:39:29 3090 3
原创 Spark中自定义排序
项目创建参考:http://blog.csdn.net/tototuzuoquan/article/details/74571374package cn.toto.sparkimport org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}/** * Created by toto on 2017/7
2017-07-08 18:09:53 980
原创 获取系统URL访问的前三名(通过Scala方式实现/通过Spark方式实现),Spark将URL访问日志进行分类并通过自定义Partitioner的方式将文件写入到不同分区上
1、创建Maven项目创建的过程参考:http://blog.csdn.net/tototuzuoquan/article/details/745713742、准备日志文件url.log的内容类似: 20160321101954 http://java.toto.cn/java/course/javaeeadvanced.shtml20160321101954 http://java.tot
2017-07-08 17:42:15 2092 7
原创 RDD的依赖关系、窄依赖、宽依赖、RDD的缓存、RDD缓存方式、DAG的生成、RDD容错机制之Checkpoint
1、RDD的依赖关系RDD和它依赖的父RDD(s)的关系有两种不同的类型,即窄依赖(narrow dependency)和宽依赖(wide dependency)。 1.1、窄依赖窄依赖指的是每一个父RDD的Partition最多被子RDD的一个Partition使用 总结:窄依赖我们形象的比喻为独生子女1.2、宽依赖宽依赖指的是多个子RDD的Partition会依赖同一个父RDD的Parti
2017-07-08 16:56:03 3122 1
原创 Spark获取某个手机号在某个基站下停留的时间和当前手机所在的位置的案例
1、业务需求 在拥有手机号在每个基站处停留时间日志 和 基站信息的 算出某个手机号的(所在基站,停留时间),(当前所在经度,当前所在纬度)其中手机连接基站产生的日志信息类似如下:18688888888,20160327082400,16030401EAFB68F1E3CDF819735E1C66,118611132889,20160327082500,16030401EAFB68F
2017-07-08 12:07:48 5542 5
easyui资料
2014-02-22
17个在线编辑器,包括kindeditor,STEditor,HTMLArea3.0last20071025等
2012-07-22
二手购物网源码
2012-05-31
强大的购物网代码(java)
2012-05-30
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人