自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(61)
  • 收藏
  • 关注

原创 pycharm配置服务器

pycharm配置服务器

2022-12-16 15:56:49 583 1

转载 通俗易懂解释知识图谱

通俗易懂解释知识图谱(Knowledge Graph)1. 前言2. 知识图谱定义3. 数据类型和存储方式4. 知识图谱的架构4.1 逻辑架构4.2 技术架构5. 信息抽取5.1 实体抽取(Entity Extraction)5.2 关系抽取(Relation Extraction)5.3 属性抽取(Attribute Extraction)6. 知识融合6.1 实体链接6.2 知识合并7. 知识加工7.1 本体构建7.2 知识推理7.3 质量评估8. 知识更新...

2022-03-30 15:48:24 416

原创 Python:数组添加数据和删除数据

# 行添加,删除数据valid_tmp = np.append(valid_tmp, train_tmp[idx],axis=0) # train_tmp[idx]和valid_tmp维数相同train_tmp = np.delete(train_tmp, idx, axis=0) # 删除train_tmp[idx, :]的数据,idx可以是个list# 列添加删除数据valid_tmp = np.append(valid_tmp, train_tmp[:, idx],axis=1) #

2022-03-24 15:04:51 3621

原创 Scala:dataset,dataframe空值判断和处理

import org.apache.spark.sql.SparkSessionimport org.apache.spark.sql.Datasetimport org.apache.spark.sql.Rowimport org.apache.spark.sql.DataFrameimport org.apache.spark.sql.Columnimport org.apache.spark.sql.DataFrameReaderimport org.apache.spark.rdd.RD

2022-03-23 17:05:44 1239

原创 迁移学习实例

import osimport sysimport cv2from PIL import Imageimport h5pyimport tensorflow as tfimport numpy as npimport pandas as pdimport matplotlib.pyplot as pltfrom time import timefrom datetime import datetimefrom tqdm import tqdm# from utils import g

2022-03-10 15:45:13 2183 1

原创 安装cv2(opencv-python)遇到的问题

正常安装:pip install opencv-python (如果只用主模块,使用这个命令安装)pip install opencv-contrib-python (如果需要用主模块和contrib模块,使用这个命令安装),推荐安装这个。import cv2 报如下错误:ImportError: libGL.so.1: cannot open shared object file: No such file or directory解决方案:sudo apt updatesudo apt

2022-02-28 10:11:41 3533

原创 python和spark日期前n天的写法

python:day = timedelta(1, 0)end_date = pd.to_datetime(test_start_date)spark:val myc: Calendar = Calendar.getInstance()val dateformat = new SimpleDateFormat("yyyy-MM-dd")val dt = dateformat.parse(end_date)myc.setTime(dt)var end_date_1 = dateformat.

2021-10-11 18:38:30 256

原创 Spark计算两条记录的差diff

var df = spark.sparkContext.parallelize(Array((1, "2014-11-03 10:45:58.0", 1), (2, "2014-10-17 18:25:58.0",2), (1, "2014-10-25 19:17:59.0",3), (2, "2014-10-29 10:19:58.0",2), (1, "2014-11-17 18:25:58.0",4), (2, "2014-08

2021-10-11 18:37:28 899

原创 python:dataframe groupby后agg、apply、transfrom用法

import pandas as pddata = pd.DataFrame({'name':['wencky','stany','barbio','barbio'], 'age':[29,29,3,10], 'gender':['w','m','m', 'w']})# 1 transform可用,agg和apply得到NaN。data["a"] = data.groupby("gender")["age"].a

2021-10-08 13:48:32 1150

原创 python一些小操作

1.两个字典的合并合并后相同的键的值会被覆盖,不同的键则保留下来。x = {'a' : 1, 'b' : 2}y = {'b' : 3, 'c' : 4}z = {**x, **y}print(z)# {'a': 1, 'b': 3, 'c': 4}2.找到数字中出现次数最多的元素 a = [1,2,3,4,5,3,2,2] print(max(set(a), key=a.count)) # 23.获取对象的内存使用量 import sys x

2021-09-10 22:00:42 84

原创 python出现Unknown label type: ‘continuous‘

今天按如下运行逻辑回归:model.fit(X_train, y_train)报错:ValueError: Unknown label type: 'continuous'将代码改为:model.fit(X_train, y_train.astype('int')

2021-09-07 09:25:19 1477

转载 Spark Dataset DataFrame空值null,NaN判断和处理

import org.apache.spark.sql.SparkSessionimport org.apache.spark.sql.Datasetimport org.apache.spark.sql.Rowimport org.apache.spark.sql.DataFrameimport org.apache.spark.sql.Columnimport org.apache.spark.sql.DataFrameReaderimport org.apache.spark.rdd.RD

2021-08-03 11:35:01 1005

原创 Spark DataFrame 添加自增id

方法一:利用窗口函数 /** * 设置窗口函数的分区以及排序,因为是全局排序而不是分组排序,所有分区依据为空 * 排序规则没有特殊要求也可以随意填写 */ val spec = Window.partitionBy().orderBy($"lon") val df1 = dataframe.withColumn("id", row_number().over(spec)) df1.show()方法二: 利用RDD的 zipWit

2021-08-03 11:31:18 525

原创 Spark:计算时间差(天数和秒数)

//天数时间差table.select(datediff(table.col("Start Time"), table.col("End Time"))).show()//描述时间差import org.apache.spark.sql.functions._//For $notation columns // Spark 2.0import spark.implicits._table.withColumn("date_diff", (unix_timestamp($"Start

2021-08-03 10:21:39 5966

原创 Spark:获取dataframe某列最大值

// 查询 df 中 "game_size"字段的最大值,同理可以查询其他的统计信息scala> df.agg(max("game_size")).show+--------------+|max(game_size)|+--------------+| 99|>df1.show()+-----+--------------------+--------+----------+-----------+|floor| timestamp|

2021-08-03 10:19:43 3767

原创 python:dataframe保存成csv文件和读取

一、从csv文件读取数据为dataframe函数原型:pandas.read_csv(filepath_or_buffer, sep=', ', delimiter=None, header='infer', names=None, index_col=None, usecols=None, squeeze=False, prefix=None, mangle_dupe_cols=True, dtype=

2021-08-03 09:45:15 21781

原创 Scala,Spark和IDEA学习笔记

目录1.distinct和dropDuplicates的区别联系2.IDEA下载Git项目3.解决A master URL must be set in your configuration错误4.IntelliJ IDEA(2019版本) 设置控制台里不显示INFO信息5.Scala集合:Map、Set、List6.scala使用Range来填充一个集合7.dataframe增加列8.SPARK-SQL内置函数之时间日期类9.Window.partitionBy1.distinct和dropDuplic

2021-07-13 19:20:04 433

原创 python笔记:数组的一些操作

1.对数组求指数和对数参考指数:math.exp() 只能对一个数求指数,不能对数组进行批量求指数numpy.exp()既能对一个数求指数,也能对数组进行批量求指数对数:math.log()numpy.log()作用同上2.数组的最值及其索引参考在list列表中,max(list)可以得到list的最大值,list.index(max(list))可以得到最大值对应的索引但在numpy中的array没有index方法,取而代之的是where,其又是list没有的numpy中还有ar

2020-11-23 21:21:51 601 1

原创 python,pycharm,anaconda,tensorflow安装

python安装参考pycharm安装参考anaconda安装参考tensorflow的CPU安装打开anaconda prompt,用国内的清华源安装pycharm配置anaconda环境python设置解释器位置为anaconda安装路径下的python.exe

2020-11-17 15:45:48 173 1

原创 python:dataframe

相关:Series一些函数用法目录DataFramereindexdroploc和ilocapply排序汇总统计和计算缺失值处理数据合并数据转换:对数据的过滤、清理以及其他的转换操作DataFrame性质:一个表格型的数据结构。它提供有序的列和不同类型的列值。from pandas import DataFrame ## 创建DataFrame ## In [0]:DataFrame({'col0':[1,2,3], 'col1':[4,5,6]})Out[0]:col0 col10

2020-11-16 16:42:30 509

原创 python:series一些函数用法

series性质:一维数组对象,类似NumPy 的一维array。(除了包含一组数据还包含一组索引,所以可以把它理解为一组带索引的数组。)from pandas import Seriesobj = Series([1,2,3,4], index = ['a', 'b', 'c', 'd']) obj输出a 1b 2c 3d 4dtype: int64 obj.index 输出Index(['a', 'b', 'c', 'd'], dtype='obj

2020-11-16 16:41:01 8128

原创 python:pandas之read_csv

导入必要的包import pandas as pdimport numpy as npfrom pandas.api.types import CategoricalDtypefrom io import StringIOdtype:指定整个DataFrame的数据类型或用字典的方式指定各个列的数据类型data = pd.read_csv('diamonds.csv',dtype=object)data.head()out:carat cut color clarity de

2020-11-13 20:04:37 1662

原创 python:装饰器

1.为什么需要装饰器我们假设你的程序实现了say_hello()和say_goodbye()两个函数。def say_hello(): print ("hello!") def say_goodbye(): print ("hello!") # bug hereif __name__ == '__main__': say_hello() say_goodbye()但是在实际调用中,我们发现程序出错了,上面的代码打印了两个hello。经过调试你发现是sa

2020-10-12 15:21:35 198

转载 Python多线程介绍及实例

1.进程和线程的概念1.1进程简单的说:进程就是运行着的程序。我们写的python程序(或者其他应用程序比如画笔、qq等),运行起来,就称之为一个进程在windows下面打开任务管理器,里面显示了当前系统上运行着的进程。可以看到,我们系统中有很多的进程运行着,比如qq、搜狗输入法等。这些程序还没有运行的时候,它们的程序代码文件存储在磁盘中,就是那些扩展名为 .exe 文件。双击它们,这些 .exe 文件就被os加载到内存中,运行起来,成为进程1.2.主线程概念而系统中每个进程里面至少包含一

2020-10-09 16:56:31 318

转载 Keras保存和载入训练好的模型和参数

1.保存模型my_model = create_model_function( ...... )my_model.compile( ...... )my_model.fit( ...... )model_name . save( filepath, overwrite: bool=True, include_optimizer: bool=True )filepath:保存的路径overwrite:如果存在源文件,是否覆盖include_optimizer:是否保存优化器状态ex :

2020-10-05 20:26:10 3830

原创 自编码器(Auto Encoder)原理及其python实现

目录一.原理二.为什么要使用自编码器三.代码实现1.原始自编码器2.多层(堆叠)自编码器3.卷积自编码器4.正则自编码器4.1稀疏自编码器四.降噪自编码器五. 逐层贪婪训练堆叠自编码器参考一.原理自编码器由两部分组成:编码器(encoder):这部分能将输入压缩成潜在空间表征,可以用编码函数h=f(x)表示。解码器(decoder):这部分重构来自潜在空间表征的输入,可以用解码函数r=g(h)表示。因此,整个自编码器可以用函数g(f(x)) = r 来描述,其中输出r与原始输入x相近。自编码器(

2020-10-05 20:13:20 18275 2

原创 MySQL的高级应用:视图,事务,索引,主从

目录视图:简单来说,视图就是一条select语句执行之后返回的结果集,所以在创建视图的时候基本工作就落在这条SQL查询语句上.视图是对若干张基本表的引用,它是一张虚表,是查询语句执行的结果,不存储具体的数据(基本表数据发生了改变视图也会跟着改变)视图只用于查询数据,方便查询创建视图 目的是方便茶数据create view 视图名称(推荐以v开头) as SQL查询语句drop view 视图名视图的作用:1.提高了重用性,就像一个函数2.对数据库重构,却不影响程序的运行3.提高了安全性能,可以对不同用户4

2020-09-25 22:49:29 139

原创 python:字典的操作

目录一、遍历1.遍历键keys:2.遍历值values:3.遍历项items:二、添加元素1.直接添加,给定键值对2.使用update方法三、删除元素1.del函数2.pop函数3.clear函数四、排序1.按键排序2.按键反向排序3.按值排序4.获取items排序4.1按items的values排序4.2按items的keys排序一、遍历1.遍历键keys:# keys() 该方法会返回字典的所有的key# 该方法会返回一个序列,序列中保存有字典的所有的键d = {'name':'孙悟空',

2020-09-08 09:51:44 118

原创 sql常用语句

视频视频课件目录数据表的操作查看数据表创建数据表 约束中符号默认为有符号查看数据表的结构数据表中插入数据修改表结构查看表的创建语句1.数据创建创建数据库查看数据库使用数据库显示当前使用那个数据库创建一个数据表 存0 1时使用bit 就行 bit(2)可以存4种 tinyint = bit(8) 2^8 = 256向表中插入数据2.基本查询语句查询3.条件查询语句条件查询4.范围查询in表示在一个非连续的范围内not in不非连续的范围内between ... and ...表示在什么范围之内

2020-08-31 17:29:40 621

转载 transformer理解

Transformer 是 Google 的团队在 2017 年提出的一种 NLP 经典模型,现在比较火热的 Bert 也是基于 Transformer。Transformer 模型使用了 Self-Attention 机制,不采用 RNN和LSTM 的顺序结构,使得模型可以并行化训练,而且能够拥有全局信息。1.Transformer 结构首先介绍 Transformer 的整体结构,下图是 Transformer 用于中英文翻译的整体结构。...

2020-08-31 10:43:03 6161 2

原创 优化算法:粒子群算法,遗传算法,差分进化算法

目录1.粒子群算法(PSO)2.遗传算法3.差分进化算法1.粒子群算法(PSO)整个粒子群优化算法的算法框架如下:step1种群初始化,可以进行随机初始化或者根据被优化的问题设计特定的初始化方法,然后计算个体的适应值,从而选择出个体的局部最优位置向量和种群的全局最优位置向量。step2 迭代设置:设置迭代次数,并令当前迭代次数为1step3 速度更新:更新每个个体的速度向量step4 位置更新:更新每个个体的位置向量step5 局部位置和全局位置向量更新:更新每个个体的局部最优解和种群的全局最

2020-08-25 11:03:44 1889

原创 一天1个机器学习知识点(五)

今天开始陆陆续续更新机器学习的面试题,资料大多数来自网上,不做盈利目的,如果侵权请告知即删!如果文章中有错误的地方还请各位同学指正,如果大家面试中遇到好的面试题也请分享,一起学习,一起进步!每天都在更新中,记得收藏,每天进步一点点!!一天1道机器学习面试题(一)一天1道机器学习面试题(二)一天1道机器学习面试题(三)一天1道机器学习面试题(四)这部分主要更新集成学习的内容(RF,adaboost,GBDT,XGBoost等)穿越---->深度学习面试!!目录1.特征工程1.1.什么是特征

2020-08-24 11:15:56 1568

原创 判断机器学习算法或深度学习算法优势常考虑的点

效果,准确率,损失函数出发模型可解释性资源:包括时间即训练速度,空间即占用内存对不平衡数据的变现如何对非线性数据的表现如何对缺失值数据的表现如何

2020-08-22 20:32:49 183

原创 python:sort,sorted,argsort,lexsort

Python list内置sort()方法用来排序,也可以用python内置的全局sorted()方法来对可迭代的序列排序生成新的序列目录1.使用sort排序2.使用sorted()排序key参数3.argsort4.lexsort1.使用sort排序用法:list.sort(func=None, key=None, reverse=False(or True))对于reverse这个bool类型参数,当reverse=False时:为正向排序;当reverse=True时:为方向排序。默认为F

2020-08-18 20:43:03 542

原创 数据结构各种排序:冒泡排序,快速排序,归并排序,插入排序,选择排序

目录1.冒泡排序1.1原理1.2时间复杂度和空间复杂度:1.3python实现:2.快速排序2.1原理2.2python实现(递归):3.归并排序3.1原理3.2复杂度3.3 python实现:4.插入排序4.1原理4.2复杂度4.3python实现1.冒泡排序1.1原理参考文章1.2时间复杂度和空间复杂度:参考文章时间复杂度:这个时间复杂度还是很好计算的:外循环和内循环以及判断和交换元素的时间开销;最优的情况也就是开始就已经排序好序了,那么就可以不用交换元素了,则时间花销为:[ n(n-.

2020-08-17 17:12:30 510

原创 python:f/F,format,%的用法

目录一.f/F的用法二.%的用法一.f/F的用法参考文章1.解析变量name = 'zhangs'age = 20res2 = F"姓名:{name},年龄:{age}"print(res2)结果:姓名:zhangs,年龄:202.解析字典one_dict = {'name': 'zhangs', 'age': 18, None: True}res3 = F"姓名:{one_dict['name']}, 年龄:{one_dict['age']} ,None:{one_dict[No

2020-08-12 11:32:37 7635 1

原创 python:去重(list,dataframe)

1.对列表去重1.1.用for或while去重1.2.用集合的特性set()>>> l = [1,4,3,3,4,2,3,4,5,6,1]>>> type(l)<class 'list'>>>> set(l){1, 2, 3, 4, 5, 6}>>> res = list(set(l))>>> res[1, 2, 3, 4, 5, 6]1.3.使用itertools模块的grouby

2020-08-06 17:06:17 1056

原创 python:array,mat,tolist,list

1.对于二维数据>>> from numpy import *>>> a1 = [[1,2,3],[4,5,6]] #获得一个列表>>> a1[[1, 2, 3], [4, 5, 6]]>>> type(a1)<class 'list'>>>> a2 = array(a1) #列表转数组>>> a2array([[1, 2, 3],

2020-08-06 15:13:13 333

原创 python: append、extend、insert、add

1.append将对象作为一个整体,添加到列表末尾,添加后列表仅增加1个元素。该对象可以是任意数据类型a= [1, 2, 'python']b = ['mac', 'linux'] a.append(b) ##a -- > [1, 2, 'python', ['mac', 'linux']]2.extend将一个可迭代对象中的所有元素(N个),逐个添加到列表末尾,添加后列表元素增加N个;通常,可迭代对象为list;为字符串时把每个字符逐个添加到列表末尾;为字典时,将字典的key添加到列

2020-08-02 18:53:16 1424

原创 树的先序遍历,中序遍历,后续遍历(递归和非递归实现)

前序遍历是先访问根节点再访问左子树最后访问右子树(中,左,右);中序遍历是先访问左子树再访问根节点最后访问右子树(左,中,右);后序遍历是先访问左子树再访问右子树最后访问根节点(左,右,中)。---------其实就是根节点的访问顺序1.前序遍历递归实现: def preOrder(self,root): if rooot == None: return print(root.val) self.preOrder(root.left) self.pre

2020-08-02 15:21:32 442

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除