猫猫玩机器学习-CSDN博客

通俗易懂解释知识图谱（Knowledge Graph)1. 前言2. 知识图谱定义3. 数据类型和存储方式4. 知识图谱的架构4.1 逻辑架构4.2 技术架构5. 信息抽取5.1 实体抽取(Entity Extraction)5.2 关系抽取(Relation Extraction)5.3 属性抽取(Attribute Extraction)6. 知识融合6.1 实体链接6.2 知识合并7. 知识加工7.1 本体构建7.2 知识推理7.3 质量评估8. 知识更新...

2022-03-30 15:48:24 508

原创 Python：数组添加数据和删除数据

# 行添加，删除数据valid_tmp = np.append(valid_tmp, train_tmp[idx],axis=0) # train_tmp[idx]和valid_tmp维数相同train_tmp = np.delete(train_tmp, idx, axis=0) # 删除train_tmp[idx, :]的数据，idx可以是个list# 列添加删除数据valid_tmp = np.append(valid_tmp, train_tmp[:, idx],axis=1) #

2022-03-24 15:04:51 3686

原创 Scala：dataset，dataframe空值判断和处理

import org.apache.spark.sql.SparkSessionimport org.apache.spark.sql.Datasetimport org.apache.spark.sql.Rowimport org.apache.spark.sql.DataFrameimport org.apache.spark.sql.Columnimport org.apache.spark.sql.DataFrameReaderimport org.apache.spark.rdd.RD

2022-03-23 17:05:44 1357

原创迁移学习实例

import osimport sysimport cv2from PIL import Imageimport h5pyimport tensorflow as tfimport numpy as npimport pandas as pdimport matplotlib.pyplot as pltfrom time import timefrom datetime import datetimefrom tqdm import tqdm# from utils import g

2022-03-10 15:45:13 2259 1

原创安装cv2（opencv-python）遇到的问题

正常安装：pip install opencv-python （如果只用主模块，使用这个命令安装）pip install opencv-contrib-python （如果需要用主模块和contrib模块，使用这个命令安装），推荐安装这个。import cv2 报如下错误：ImportError: libGL.so.1: cannot open shared object file: No such file or directory解决方案：sudo apt updatesudo apt

2022-02-28 10:11:41 3643

原创 python和spark日期前n天的写法

python：day = timedelta(1, 0)end_date = pd.to_datetime(test_start_date)spark：val myc: Calendar = Calendar.getInstance()val dateformat = new SimpleDateFormat("yyyy-MM-dd")val dt = dateformat.parse(end_date)myc.setTime(dt)var end_date_1 = dateformat.

2021-10-11 18:38:30 346

原创 Spark计算两条记录的差diff

var df = spark.sparkContext.parallelize(Array((1, "2014-11-03 10:45:58.0", 1), (2, "2014-10-17 18:25:58.0",2), (1, "2014-10-25 19:17:59.0",3), (2, "2014-10-29 10:19:58.0",2), (1, "2014-11-17 18:25:58.0",4), (2, "2014-08

2021-10-11 18:37:28 1007

原创 python：dataframe groupby后agg、apply、transfrom用法

import pandas as pddata = pd.DataFrame({'name':['wencky','stany','barbio','barbio'], 'age':[29,29,3,10], 'gender':['w','m','m', 'w']})# 1 transform可用，agg和apply得到NaN。data["a"] = data.groupby("gender")["age"].a

2021-10-08 13:48:32 1316

原创 python一些小操作

1.两个字典的合并合并后相同的键的值会被覆盖，不同的键则保留下来。x = {'a' : 1, 'b' : 2}y = {'b' : 3, 'c' : 4}z = {**x, **y}print(z)# {'a': 1, 'b': 3, 'c': 4}2.找到数字中出现次数最多的元素 a = [1,2,3,4,5,3,2,2] print(max(set(a), key=a.count)) # 23.获取对象的内存使用量 import sys x

2021-09-10 22:00:42 117

原创 python出现Unknown label type: ‘continuous‘

今天按如下运行逻辑回归：model.fit(X_train, y_train)报错：ValueError: Unknown label type: 'continuous'将代码改为：model.fit(X_train, y_train.astype('int')

2021-09-07 09:25:19 1567

转载 Spark Dataset DataFrame空值null,NaN判断和处理

import org.apache.spark.sql.SparkSessionimport org.apache.spark.sql.Datasetimport org.apache.spark.sql.Rowimport org.apache.spark.sql.DataFrameimport org.apache.spark.sql.Columnimport org.apache.spark.sql.DataFrameReaderimport org.apache.spark.rdd.RD

2021-08-03 11:35:01 1086

原创 Spark DataFrame 添加自增id

方法一：利用窗口函数 /** * 设置窗口函数的分区以及排序，因为是全局排序而不是分组排序，所有分区依据为空 * 排序规则没有特殊要求也可以随意填写 */ val spec = Window.partitionBy().orderBy($"lon") val df1 = dataframe.withColumn("id", row_number().over(spec)) df1.show()方法二：利用RDD的 zipWit

2021-08-03 11:31:18 598

原创 Spark：计算时间差（天数和秒数）

//天数时间差table.select(datediff(table.col("Start Time"), table.col("End Time"))).show()//描述时间差import org.apache.spark.sql.functions._//For $notation columns // Spark 2.0import spark.implicits._table.withColumn("date_diff", (unix_timestamp($"Start

2021-08-03 10:21:39 6521

原创 Spark：获取dataframe某列最大值

2021-08-03 10:19:43 3955

原创 python：dataframe保存成csv文件和读取

一、从csv文件读取数据为dataframe函数原型：pandas.read_csv(filepath_or_buffer, sep=', ', delimiter=None, header='infer', names=None, index_col=None, usecols=None, squeeze=False, prefix=None, mangle_dupe_cols=True, dtype=

2021-08-03 09:45:15 21995

原创 Scala，Spark和IDEA学习笔记

目录1.distinct和dropDuplicates的区别联系2.IDEA下载Git项目3.解决A master URL must be set in your configuration错误4.IntelliJ IDEA（2019版本）设置控制台里不显示INFO信息5.Scala集合：Map、Set、List6.scala使用Range来填充一个集合7.dataframe增加列8.SPARK-SQL内置函数之时间日期类9.Window.partitionBy1.distinct和dropDuplic

2021-07-13 19:20:04 687

原创 python笔记：数组的一些操作

1.对数组求指数和对数参考指数：math.exp() 只能对一个数求指数，不能对数组进行批量求指数numpy.exp()既能对一个数求指数，也能对数组进行批量求指数对数：math.log()numpy.log()作用同上2.数组的最值及其索引参考在list列表中，max(list)可以得到list的最大值，list.index(max(list))可以得到最大值对应的索引但在numpy中的array没有index方法，取而代之的是where，其又是list没有的numpy中还有ar

2020-11-23 21:21:51 791 1

原创 python，pycharm，anaconda，tensorflow安装

python安装参考pycharm安装参考anaconda安装参考tensorflow的CPU安装打开anaconda prompt，用国内的清华源安装pycharm配置anaconda环境python设置解释器位置为anaconda安装路径下的python.exe

2020-11-17 15:45:48 200 1

原创 python：dataframe

相关：Series一些函数用法目录DataFramereindexdroploc和ilocapply排序汇总统计和计算缺失值处理数据合并数据转换：对数据的过滤、清理以及其他的转换操作DataFrame性质：一个表格型的数据结构。它提供有序的列和不同类型的列值。from pandas import DataFrame ## 创建DataFrame ## In [0]:DataFrame({'col0':[1,2,3], 'col1':[4,5,6]})Out[0]:col0 col10

2020-11-16 16:42:30 555

原创 python：series一些函数用法

series性质：一维数组对象，类似NumPy 的一维array。（除了包含一组数据还包含一组索引，所以可以把它理解为一组带索引的数组。）from pandas import Seriesobj = Series([1,2,3,4], index = ['a', 'b', 'c', 'd']) obj输出a 1b 2c 3d 4dtype: int64 obj.index 输出Index(['a', 'b', 'c', 'd'], dtype='obj

2020-11-16 16:41:01 8424

原创 python：pandas之read_csv

导入必要的包import pandas as pdimport numpy as npfrom pandas.api.types import CategoricalDtypefrom io import StringIOdtype：指定整个DataFrame的数据类型或用字典的方式指定各个列的数据类型data = pd.read_csv('diamonds.csv',dtype=object)data.head()out:carat cut color clarity de

2020-11-13 20:04:37 1759

原创 python：装饰器

1.为什么需要装饰器我们假设你的程序实现了say_hello()和say_goodbye()两个函数。def say_hello(): print ("hello!") def say_goodbye(): print ("hello!") # bug hereif __name__ == '__main__': say_hello() say_goodbye()但是在实际调用中，我们发现程序出错了，上面的代码打印了两个hello。经过调试你发现是sa

2020-10-12 15:21:35 244

转载 Python多线程介绍及实例

1.进程和线程的概念1.1进程简单的说：进程就是运行着的程序。我们写的python程序（或者其他应用程序比如画笔、qq等），运行起来，就称之为一个进程在windows下面打开任务管理器，里面显示了当前系统上运行着的进程。可以看到，我们系统中有很多的进程运行着，比如qq、搜狗输入法等。这些程序还没有运行的时候，它们的程序代码文件存储在磁盘中，就是那些扩展名为 .exe 文件。双击它们，这些 .exe 文件就被os加载到内存中，运行起来，成为进程1.2.主线程概念而系统中每个进程里面至少包含一

2020-10-09 16:56:31 399

转载 Keras保存和载入训练好的模型和参数

1.保存模型my_model = create_model_function( ...... )my_model.compile( ...... )my_model.fit( ...... )model_name . save( filepath, overwrite: bool=True, include_optimizer: bool=True )filepath：保存的路径overwrite：如果存在源文件，是否覆盖include_optimizer：是否保存优化器状态ex :

2020-10-05 20:26:10 3941

原创自编码器(Auto Encoder)原理及其python实现

目录一.原理二.为什么要使用自编码器三.代码实现1.原始自编码器2.多层（堆叠）自编码器3.卷积自编码器4.正则自编码器4.1稀疏自编码器四.降噪自编码器五. 逐层贪婪训练堆叠自编码器参考一.原理自编码器由两部分组成：编码器（encoder）:这部分能将输入压缩成潜在空间表征，可以用编码函数h=f(x)表示。解码器（decoder）:这部分重构来自潜在空间表征的输入，可以用解码函数r=g(h)表示。因此，整个自编码器可以用函数g(f(x)) = r 来描述，其中输出r与原始输入x相近。自编码器(

2020-10-05 20:13:20 20485 2

原创 MySQL的高级应用：视图，事务，索引，主从

目录视图：简单来说，视图就是一条select语句执行之后返回的结果集,所以在创建视图的时候基本工作就落在这条SQL查询语句上.视图是对若干张基本表的引用,它是一张虚表,是查询语句执行的结果,不存储具体的数据(基本表数据发生了改变视图也会跟着改变)视图只用于查询数据,方便查询创建视图目的是方便茶数据create view 视图名称(推荐以v开头) as SQL查询语句drop view 视图名视图的作用:1.提高了重用性,就像一个函数2.对数据库重构,却不影响程序的运行3.提高了安全性能,可以对不同用户4

2020-09-25 22:49:29 212

空空如也

空空如也