数据挖掘
loong_XL
这个作者很懒,什么都没留下…
展开
-
Elasticsearch es查询结果只返回指定筛选字段_source
参考:https://www.exception.site/elasticsearch/elasticsearch-query-custom-columns1、查询特别值查询,结果只返回指定字段*** 只返回title、channel结果;下列两种语法方式都可以{ "_source": [ "title", "channel" ], "query": { "term": {"aid": "cfxa***253i1y"} }}{ "_source": [原创 2022-04-12 14:14:38 · 14505 阅读 · 0 评论 -
pyspark 去重dropDuplicates、distinct;unionByName、groupBy;struct、create_map、concat;collect、collect_list
1、去重dropDuplicates、distinctff =d.select(['dnum']).dropDuplicates()ff.count()ff.show()fff =d.select(['dnum']).distinct()2、withColumn、lit、colwithColumn增加一列lit 指定列col 选择列import pyspark.sql.functions as Ftemp_df = temp_df.withColumn("date", F.lit(t原创 2022-02-14 12:33:14 · 3842 阅读 · 1 评论 -
pyspark date_format、concat_ws、datediff、explode、collect_list、arrays_zip、regexp_replace等
import pyspark.sql.functions as Fimport pyspark.sql.types as Tfrom pyspark.sql.functions import splitfrom pyspark.sql.functions import regexp_replace, coldate_format、concat_ws、datediff** cast 时间格式转化df.withColumn("action_date",F.date_format(F.concat原创 2021-12-27 16:22:49 · 934 阅读 · 0 评论 -
pyspark config设置、增加配置、限制_success文件生成;spark-submit 集群提交参数
1、pyspark增加config设置java heap错误增加内存2、spark-submit 参数参考:https://www.cnblogs.com/weiweifeng/p/8073553.htmlnohup spark-submit --class com.tcl.video.search.recommend.SparkQueryApplication --executor-memory 6G --num-executors 6 --master yar原创 2021-11-18 15:52:02 · 3485 阅读 · 0 评论 -
pandas chunksize读取大文件csv;dataframe 转json
***另:读取大文件json可以参考ijson库参考:https://blog.csdn.net/zm714981790/article/details/51375475read_csv中有个参数chunksize,通过指定一个chunksize分块大小来读取文件,返回的是一个可迭代的对象TextFileReaderchunk也是dataframereader = pd.read_table('tmp.sv', sep='|', chunksize=4)for chunk in reader:原创 2021-09-27 15:11:39 · 795 阅读 · 0 评论 -
pyspark 数据的读取与保存;pyspark的dataframe转化与展示
1、pyspark 读取与保存参考:http://www.manongjc.com/detail/15-vfxldlrjpphxldk.htmldt1 = spark.read.parquet(r'/home/Felix/pycharm_projects/test/testfile.parquet')print(dt1.show())保存的时候主要文件夹权限,不然报错ERROR FileOutputCommitter: Mkdirs failed to create file:修改文件夹权限先原创 2021-08-09 16:44:29 · 6261 阅读 · 0 评论 -
docker 安装spark
docker 安装spark参考:https://github.com/big-data-europe/docker-spark1、创建个文件夹docker-spark2、进入该文件件下创建个docker-compose.yml文件version: '3'services: spark-master: image: bde2020/spark-master:3.1.1-hadoop3.2 container_name: spark-master ports:原创 2021-06-30 16:23:35 · 900 阅读 · 0 评论 -
docker 安装flink;flink定位、运行
flink定位flink:数据采集、提取tensorflow:模型训练、部署另:更原始数据数仓(收集:flume+kafka;入库:flink+clickhouse)注意:docker pull *** 超时下载错误问题,更改国内源win10 docker desktop再设置里更改 "registry-mirrors": [ "https://registry.docker-cn.com", "http://hub-mirror.c.163.com", "http原创 2021-06-25 16:56:51 · 5996 阅读 · 1 评论 -
docker 安装hadoop,hive,mysql等大数据工具
大数据hadoop三块***大数据可视化工具:hue1、hdfs(存储):hbase、kudu、druid等2、mapreduce(计算):hive、spark、flink、kylin、impala等3、yarn(分布式部署)1、docker 安装hadoop参考:https://github.com/kiwenlau/hadoop-cluster-dockerhttps://caidao.gitbooks.io/reading-notes/content/you-yi-si-de-jing原创 2021-06-21 11:32:15 · 1500 阅读 · 7 评论 -
pyflink使用,连接kafka待补充
安装 !pip install apache-flink!echo “flink\npyflink\nflink” > /tmp/inputfrom pyflink.dataset import ExecutionEnvironmentfrom pyflink.table import TableConfig, DataTypes, BatchTableEnvironmentfrom pyflink.table.descriptors import Schema, OldCsv, FileSy原创 2020-11-13 17:27:01 · 1146 阅读 · 0 评论 -
faiss mac安装;ubuntu安装;pytorch安装
提取有安装 brew install libomp openblas然后conda安装 conda install faiss-cpu -c pytorch然后jupyter 报错 ;解决方法 conda install mkl=2019.3=199参考:https://github.com/facebookresearch/faiss/issues/485然后重启jupyter解决,安装成功案例参考:https://github.com/facebookresearch/faiss/wiki原创 2020-10-23 15:50:27 · 949 阅读 · 1 评论 -
flink安装
mac下载brew install apache-flink参考:https://www.jianshu.com/p/2c94ffe0d2532、查询安装成功命令:flink --version 或者 brew info apache-flink3、运行cd /usr/local/Cellar/apache-flink/1.11.2/libexec/bin下运行 ./start-cluster.sh然后网页打开 http://localhost:8081/#/overview...原创 2020-10-22 15:04:11 · 257 阅读 · 0 评论 -
clickhouse docker安装
参考 :https://blog.csdn.net/qq_35349114/article/details/1057716741、下载docker pull yandex/clickhouse-serverdocker pull yandex/clickhouse-clinet2、启动server如果想指定目录启动,这里以clickhouse-test-server命令为例,可以随意写mkdir clickhouse-test-db ## 创建数据文件目录使用以下路径启动,在外原创 2020-10-22 14:45:33 · 704 阅读 · 0 评论 -
hive 启动配置
mac 通过homebrew安装;安装后目录在/usr/local/Cellar启动hive需要县启动hadoop,然后hive元数据表也需要初始化;没有关联mysql可以初始化hive自带的Derbya、启动hive报错:java.lang.NoSuchMethodError:com.google.common.base.Preconditions.checkArgument(…)查看该jar包在hadoop和hive里的版本信息:hadoop路径:/usr/local/Cellar/hadoo原创 2020-10-22 11:59:26 · 724 阅读 · 0 评论 -
向氏-姓氏家谱知识图谱构建
Knowledge map of family tree (向氏家谱)本项目主要是把数据整理出实体与关系上传eno4j图数据库做知识图谱数据源:http://xiangshijiapu.com/Family/F5186/V00251867559/WebSxtList.htm难点:1、重名处理,特别同一代与不同代 2、关系:父子,兄妹,叔伯三种主要3、py2neo库连接neo4j版本问题,后续更新neo4j-community-3.5.21 版本没问题import requestsfrom lxm原创 2020-09-03 12:09:27 · 1469 阅读 · 0 评论 -
keras非Sequential模型的保存加载再训练和预测
import tensorflow as tffrom tensorflow import kerasfrom tensorflow.keras import *from tensorflow.keras.layers import *1、保存用model.save_weights(’/d¥¥¥¥t888.h5’)2、加载再次训练模型加载和预测都需要先有原来模型的结构from tensorflow.keras import backend as K def create_model()原创 2020-06-21 12:53:59 · 714 阅读 · 0 评论 -
pyspark steaming 连接kafka数据实时处理(也可以对接flume+kafka+spark)
需要下载对应 spark-streaming-kafka-0-8-assembly jar包(版本要对于)下载地址:https://mvnrepository.com/artifact/org.apache.spark/spark-streaming-kafka-0-8-assembly_2.11一定要下载对应的assembly版本,不然不识别版本对应说明比如:spark-streamin...原创 2020-03-31 11:13:56 · 1642 阅读 · 0 评论 -
flume日志采集及断点去重模块(mac\linux安装)
mac安装直接:brew install flume官网文档参考:http://flume.apache.org/releases/content/1.9.0/FlumeUserGuide.htmlflume模块agent主要分为三块sourse,channel、sink三块,因为封装的比较好,不需要编程,只需要设置三块具体模块及参数就行编辑自己的配置文件:/libexec/conf/下创...原创 2020-03-28 11:32:05 · 436 阅读 · 0 评论 -
协同过滤之余弦距离相似度计算手推过程
参考:https://www.bilibili.com/video/av38554878?p=4https://blog.csdn.net/huozi07/article/details/45600963user_cf相关打分计算:重点就是求两两相关性是求两者共同有的之间进行的相关性计算下面是求出的u1对i2的打分预测:...原创 2019-11-27 19:46:51 · 1240 阅读 · 0 评论 -
surprise 推荐系统简单入门
直接pip安装:pip install scikit-surprise1、使用小例子(‘print_perf’ ,evaluate都不能使,查原代理换成PredictionImpossible)from surprise import Dataset,prediction_algorithmsfrom surprise.model_selection import cross_valida...原创 2019-11-19 22:06:11 · 636 阅读 · 0 评论 -
kaggle titanic数据挖掘比赛
正常数据挖掘:1、数据总览分析eda2、数据处理清洗3、特征工程4、模型及调优5、验证与反馈首先去kaggle下载数据集:(需要科学上网,登陆和最后提交成绩需要)https://www.kaggle.com/c/titanicimport numpy as npimport pandas as pdfrom sklearn import linear_model, prepro...原创 2019-10-21 10:20:24 · 516 阅读 · 0 评论