大数据
宁缺100
迈出的步伐不非得很大,只要你是在往正确的方向前行就行
展开
-
开源向量数据库--milvus
Milvus 是一款开源的向量相似度搜索引擎,支持针对 TB 级向量的增删改操作和近实时查询,具有高度灵活、稳定可靠以及高速查询等特点。Milvus 集成了 Faiss、NMSLIB、Annoy 等广泛应用的向量索引库,提供了一整套简单直观的 API,让你可以针对不同场景选择不同的索引类型。此外,Milvus 还可以对标量数据进行过滤,进一步提高了召回率,增强了搜索的灵活性。特性异构计算优化了基于 GPU 搜索向量和建立索引的性能可以在单台通用服务器上完成对 TB 级数据的毫秒级搜索动态.原创 2021-04-11 16:39:18 · 2063 阅读 · 0 评论 -
Docker命令记录
查看已有容器docker images命令行模式进入该容器docker run -it ubuntu /bin/bash由镜像启动容器docker run -itd -p 5000:5000 -w /app/labproject ubuntu_defecte_class:base_line python3 app.py-p 容器内外端口映射 主机:容器-P 容器内端口随机映射到主机-d 容器后台运行-v 主机文件夹映射到容器内进入启动的容器docker psdock.原创 2020-07-31 16:42:04 · 162 阅读 · 0 评论 -
JupyterNotebook调试spark
下载 spark下载 hadoop下载 winutils.exe 放在 hadoop_home/bin配置环境变量将spark /jars 下的 py4j-0.10.7.jar 解压到python环境Lib\site-packages下pip install pypiwin32启动sparkimport osimport sysspark_home = os.environ.get('SPARK_HOME', None)if not spark_home: rais.原创 2020-06-22 13:31:08 · 388 阅读 · 0 评论 -
正则化的线性回归 岭回归、Lasso回归
文章目录概述岭回归效果Lasso回归效果线性回归效果概述正则化的线性回归岭回归就是正则化的线性回归,线性回归容易出现过拟合,正则化是防止过拟合的常用方法。换句话说是修正后的最小二乘法。线性回归的误差函数f(w) = \frac{1}{2}\sum_{i=1}^{n}{(y-y`)^2}优化的误差函数是原来线性回归的均方误差上加上L2范数的惩罚项(修正项),惩罚模型的复杂程度。f(w) = \frac{1}{2}\sum_{i=1}^{n}{(y-y`)^2}+\frac{1}{2}a*\原创 2020-05-27 20:04:20 · 677 阅读 · 0 评论 -
信息熵和信息增益
信息熵对信息的量化度量,任何信息都存在冗余,把信息中排除了冗余后的平均信息量称为信息熵信息熵是用来衡量事务不确定性,信息熵越大,事物越具不确定性,事务越复杂发生概率越大的事物携带的信息熵越低,因为是大概率发生的事物,并没有消除不确定性信息增益表示得知特征x的信息使得特征y的信息不确定性减少的程度,信息增益越大,表示特征x越重要计算实例样本个数+4-...原创 2020-01-13 11:36:57 · 391 阅读 · 0 评论 -
MongoDB存储引擎
1.那几种存储引擎 WiredTiger MMAPv1 In-Memory2.WiredTiger优势 最大化使用缓存:文件系统缓存 WiredTiger内部缓存 高吞吐量:写时复制 多核的可扩展性3.WiredTiger特性 文档级别的并发控制 MVCC 多版本并发控制机制 快照与检查点 创建Checkp...原创 2019-11-04 23:13:24 · 931 阅读 · 1 评论 -
Spring Data Mongodb事务
mongo4.2支持分片集群事务MongoTransactionManagerSpringboot 开启MongoDB事务@EnableTransactionManagementpublic class SpringBootApplication{ public static void main(String[] args) { SpringAppl...原创 2019-11-02 21:59:01 · 745 阅读 · 1 评论 -
MongoDB基本操作
db.createCollection('for_test')db.getCollection('for_test').save({'_id':3,'results':[75,88]})db.getCollection('for_test').find({'results':{'$elemMatch':{'$gte':80,'$lt':85}}})db.getCollection('f...原创 2019-11-02 21:54:44 · 335 阅读 · 0 评论 -
MongoDB导入导出
导出 mongoexport --port 30000 -d itpsdsc -c sys_menu -o /home/menu1.json #! /bin/bashmongoexport --port $1 -d $2 -c $3 -o $4 >> $3_export.log 2>&1导出命令sh sys_menu_export.sh 30000...原创 2019-11-02 21:53:27 · 145 阅读 · 0 评论 -
时间序列预测ARIMR(Spark scala,Python)
自回归滑动平均差分模型AR 自回归MA 滑动平均I 差分法AIC 准则 赤池消息准则,衡量统计模型拟合好坏的标准,值越小越拟合最小信息量准则(An Information Criterion) 指导思想:似然函数值越大越好未知参数的个数越少越好ARMA模型要求数据平稳,当数据不平稳时,需要差分。如果d阶差分后,序列平稳,叫做d阶单整序列如果差分很多次,还.........原创 2019-11-04 10:47:27 · 4570 阅读 · 3 评论 -
Pandas 数据清洗
处理空值删除替换填充重复值异常值原创 2019-07-10 22:34:36 · 234 阅读 · 0 评论 -
第一个Flink程序 词频统计
maven创建 Flink 应用程序,通过端口获取实时输入的字符串,利用Flink统计单词频率并打印出来public static void main(String[] args) throws Exception { StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironme...原创 2019-06-21 12:38:45 · 937 阅读 · 0 评论 -
Flink Java操作Kafka
0.8 kafka版本2.11 <dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-connector-kafka-0.8_2.11</artifactId> <version>1.8.0</version></de...原创 2019-06-21 11:12:24 · 3086 阅读 · 0 评论 -
SparkStream实时分析统计展示共享单车使用人数
sparkStream 实时分析统计展示共享单车使用人数原创 2019-05-17 19:30:20 · 4083 阅读 · 1 评论 -
Java 操作kafka
<dependency> <groupId>org.apache.kafka</groupId> <artifactId>kafka_2.10</artifactId> <version>0.8.0</version> </dependency&...原创 2019-05-12 14:05:06 · 807 阅读 · 0 评论 -
Scala 操作Kafka
Spark支持Kafka网上这块资料比较多,不再赘述1.spark-streaming-kafka-0-8_2.11-2.1.0.jar 2.kafka 的jar 包3.jar存放路径 spark/jars/kafka生产者import org.apache.spark.streaming.kafka._import org.apache.kafka.clients.pro...原创 2019-05-12 13:48:52 · 3167 阅读 · 0 评论 -
Python 操作kafka
Python3 安装模块pip3 install kafka-python启动kafka消费者from kafka import KafkaConsumer#consumer=KafkaConsumer('result',group_id='consumer-20171017',bootstrap_servers=['192.168.126.132:9092'])con...原创 2019-05-12 13:32:37 · 246 阅读 · 0 评论 -
Cassandra与SpringBatch批处理
使用SpringBatch框架将海量数据文件中数据批量导入Cassandra数据库中SpringBatch通过springbatch.xml中 batch:job标签具体定义job工作内容step job内步骤项 这里只需要一个就可以tasklet 任务集,可以指定线程池来执行chunk : read-process-write模式 读csv文件,程序处理,然后写入Cassan...原创 2019-05-19 15:33:52 · 987 阅读 · 0 评论 -
Scala练习集---RDD编程
创建RDD读取外部数据集SparkContext.parallelize()方法在集合上创建本地文件scala> val lines = sc.textFile("file:///usr/local/spark/mycode/rdd/word.txt")lines: org.apache.spark.rdd.RDD[String] = file:///usr/local/sp...原创 2019-04-25 07:54:52 · 1028 阅读 · 0 评论 -
Scala练习--WoldCount词频统计
启动Hadoop HDFShadoop@dhjvirtualmachine:/usr/local/hadoop/sbin$ ./start-dfs.sh创建数据文件hadoop@dhjvirtualmachine:/usr/local/spark/mycode$ mkdir wordcounthadoop@dhjvirtualmachine:/usr/local/spark/my...原创 2019-04-25 07:53:40 · 396 阅读 · 0 评论 -
Ubuntu系统中安装Java环境
1.安装OpenJDK7sudo apt-get install openjdk-7-jre openjdk-7-jdk-查找安装路径dpkg -L openjdk-7-jdk | grep '/bin/javac'dpkg命令dpkg -l #查看软件状态dpkg -P #purge卸载软件安装文件和配置文件一起dpkg -r #remove只删除安装文件2.配置JAVA_HOME环境原创 2017-11-12 15:45:22 · 383 阅读 · 0 评论 -
WoldCount词频统计
启动Hadoop HDFShadoop@dhjvirtualmachine:/usr/local/hadoop/sbin$ ./start-dfs.sh创建数据文件hadoop@dhjvirtualmachine:/usr/local/spark/mycode$ mkdir wordcounthadoop@dhjvirtualmachine:/usr/local/spa原创 2018-01-07 16:04:46 · 241 阅读 · 0 评论 -
Spring集成IBMMQ
配置文件<?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns:dubbo="http原创 2018-02-07 21:49:41 · 1737 阅读 · 2 评论 -
敏捷高效的持续集成管理平台
包含以下内容代码版本管理 svn git项目构建 maven gradle(私有库)持续集成服务器 hudson代码质量管理平台 sonarqube容器 运行环境(JDK Tomcat)覆盖以下人员项目管理人员开发人员测试人员大致流程图sequenceDiagram开发人员->>svn: 提交代码持续集成服务器->>svn: 自动检出并编译原创 2018-02-07 21:57:26 · 1111 阅读 · 0 评论 -
爬取豆瓣Top250电影名称列表
要爬取的网页豆瓣电影Top 250 Python程序#!/usr/bin/python3.4#-*- coding:utf-8-*-#FileName:getdangdang.py#Author:duhongjiang#Date:2018/2/24 20:08import requestsfrom bs4 import BeautifulSoupi...原创 2018-02-24 22:35:38 · 3445 阅读 · 0 评论 -
淘宝数据集分析+可视化
http://localhost:8080/web/index1.jsp“` HDFS 对文本文件形式的原始数据集进行预处理 把文本文件的数据集导入到数据仓库Hive中 对数据仓库Hive中的数据进行查询分析 使用Sqoop将数据从Hive导入MySQL 利用Eclipse搭建动态Web应用 利用ECharts进行前端可视化分析 利用Spark MLlib进行回头客行为预测...原创 2018-02-25 20:50:50 · 7079 阅读 · 0 评论 -
Hive 安装使用
Hive安装1.解压安装包2.设置环境变量3.修改hive-site.xml配置文件4.将mysql连接包放入hive安装路径下的lib包 /usr/local/hive/lib5.启动hive mysql安装1.更新软件源2.安装mysql3.修改编码 character_set_server4.给hive用户赋权限(hive 能接入数据库)...原创 2018-06-05 06:57:49 · 649 阅读 · 0 评论 -
Spring Batch重试(restart)原理
保存元数据的表batch_job_executionbatch_job_execution_contextbatch_job_execution_paramsbatch_job_execution_seqbatch_job_instancebatch_job_seqbatch_step_executionbatch_step_execution_contextbatch_s...原创 2018-07-01 15:52:16 · 4093 阅读 · 2 评论 -
Hive,Mysql,Sqoop安装使用数据导入导出
Hive简介Facebook开发构建与Hadoop之上的数据仓库,可以结构化数据文件映射为一张数据库表提供完整的SQL查询功能,将SQL语句转换为MapReduce任务进行适合静态数据分析,数据变化不频繁不支持记录级别的更新插入或者删除,不支持事务提供ETL数据提取转化加载,可以维护海量数据,对数据挖掘后形成任意报告表单Hive SQL 和 Mysql 更接近分区表 按照分区...原创 2019-04-22 23:26:18 · 542 阅读 · 0 评论 -
Hadoop与Spark基本原理
HadoopSparkSpark 和 Hadoop区别和联系Hadoop 的 HDFSHadoop 的 MapReduceSpark 宽依赖和窄依赖Spark RDD运行过程Spark RDD阶段划分HadoopHadoop是Apache软件基金旗下的一个开源分布式计算平台,为用户提供系统底层细节透明的分布式基础架构,基于Java开发,有很好的跨平台性,并且可以部署在廉...原创 2019-05-03 15:08:46 · 2346 阅读 · 0 评论 -
Spark远程连接Hive数据源
下载winutils.exe,放到HADOOP_HOME/bin下,模拟linux环境scala文件 // 连接hive数据仓库 val sparkSession = SparkSession.builder().appName("HiveCaseJob").master("local[*]").enableHiveSupport().getOrCreate() spa...原创 2019-05-03 21:00:06 · 3195 阅读 · 0 评论 -
Hadoop修改host名以后Hive无法访问
配置信息会被写死在hive的DBS和SBS表里,只要进入mysql,打到DBS和SDS,把地址修改为新的原创 2019-05-03 21:00:41 · 799 阅读 · 0 评论 -
SparkStream流处理
输入流文件输入流 // spark streaming 文件输入流// val inputFile = "file:///usr/local/spark/mycode/wordcount/word.txt" val inputFile = "hdfs://192.168.126.130:9000/usr/local" val conf = new Spark...原创 2019-05-04 09:12:27 · 1119 阅读 · 0 评论 -
Kafka简单安装与测试
BrokerKafka集群包含一个或多个服务器,这种服务器被称为brokerTopic每条发布到Kafka集群的消息都有一个类别,这个类别被称为Topic。(物理上不同Topic的消息分开存储,逻辑上一个Topic的消息虽然保存于一个或多个broker上但用户只需指定消息的Topic即可生产或消费数据而不必关心数据存于何处)PartitionPartition是物理上的概念,每个Top...原创 2019-05-04 18:00:38 · 805 阅读 · 0 评论 -
Spark独立应用程序 Scala
安装sbt创建应用使用sbt打包Scala程序spark-submit 运行程序安装idea安装sbt创建目录mkdir /usr/local/sbtsbt-launch.jarcp ~/下载/sbt-launch.jar .chmod u+x ./sbt检查hadoop@dhjvirtualmachine:/usr/local/sbt$ ./sbt sbt-ve...原创 2019-04-25 07:52:08 · 1009 阅读 · 0 评论 -
Hadoop 安装和配置
安装创建用户sudo useradd -m hadoop -s /bin/bashsudo ubuntu中权限管理机制,管理员给普通用户执行root权限执行的操作,需要当前用户密码设置密码sudo passwd hadoop增加管理员权限sudo adduser hadoop sudo更新apt 软件源sudo apt-get update安装vim编辑器sudo apt-get install v原创 2017-11-12 15:31:32 · 931 阅读 · 0 评论