自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(36)
  • 收藏
  • 关注

原创 学习记录与总结

1. Hive学习Hive可以将大多数查询转化为MR任务,扩宽Hadoop的可扩展性,即Hive查询语句类似MR的一个高阶接口。 了解哪些情况不需要MRHive适合数据仓库应用,使用静态数据分析,高延迟,批处理,不支持事务。 数据库和数据仓库的区别 事务是什么?Hive不支持OLTP(联机事务处理),更像OLAP(联机分析技术)但目前没有联机。 了解OLTP和OLAP Hive和python可以交互吗? Hive的组成部分 JDBC和ODBC是什么?2. sql学习学习了

2022-02-23 22:17:34 132

原创 Tensorflow2 导入自定义预训练模型

网上大多数都是直接调用tf的内置application中的预训练模型,这里用自己训练好的预训练模型。预训练模型的最后全连接层不要,只保留前面的捕捉特征的层且这些层权重冻结不参与接下来的训练。不冻结也可以,这样相当于从新训练,就没起到预训练模型的效果。大致代码如下:# 加载模型base_model = tf.keras.models.load_model('model-best.h5')# 得到最后一个全连接之前的层last_layer = base_model.get_layer(index=

2020-07-28 17:00:19 1437 3

原创 论文笔记:使用基于Attention的卷积神经网络进行12导联的心电异常的多分类检测

论文地址:Multi-class Arrhythmia detection from 12-lead varied-length ECG using Attention-based Time-Incremental Convolutional Neural Network一、背景心电数据往往存在者个体差异和噪音,给心率识别与分析带来很大困难。现有深度学习算法虽多,却没有专门为生理信号设计的模型,生理信号有以下几个特点:1.周期性波动,2.存在异常信号,3.现有12导联的心电数据提供了丰富的信息,如何利

2020-07-17 11:17:28 1592 11

原创 【小波变换】离散小波分解Discrete Wavelet Transform

此篇博客记录自学离散小波分解的相关内容,以后若有更多理解在此篇更新。一、 为什么需要离散小波分解   除离散变换外,还有连续小波分解,通过改变分析窗口大小,在时域上移动窗口和基信号相乘,最后在全时域上整合。通过离散化连续小波分解可以得到伪离散小波分解(注意有些matlab工具包的DWT实际上是它而不是下文要说的离散小波分解)。这种离散化带有大量冗余信息且计算成本较高。二、离散小波分解Discrete Wavelet Transform   在讲小波变换前,可以先懂一点傅里叶变换的东西,关于将信号从

2020-07-15 16:58:51 10057

原创 Ubuntu20.04谷歌输入法中英切换

首先,Ctrl+Space切换中英文,以后在这个应用里直接shift切换了

2020-07-03 13:53:00 3685 1

原创 git push 卡住不动的解决

有时候提交本地修改到远程分支时,会出现下图这样卡住不动的情况:手动Ctrl+C终止后重新提交还是这样。解决:手动将仓库sideband属性设置为false,当然也可以设置全局全局:git config –global sendpack.sideband false仓库:git config –local sendpack.sideband false检查是否还有未提交的修改,若有将修改提交,再push解决...

2020-06-23 17:05:33 14422 3

原创 这篇博客为了记录一个很蠢的问题

事情是这样,之前在家远程办公,用vscode调试、运行模型也爽歪歪。到公司了发现vscode不能在指定的虚拟环境内运行。经检查,左下角python解释器是对的,但运行时显示虚拟环境并没有激活,即标识符前没有(环境名称),大概长这样:神奇的是cmd终端里是可以激活环境并运行的!!几番排查之后,发现——vscode默认新建的终端是powershell。。。。。改成cmd就可以了,哭...

2020-05-19 13:32:52 146

原创 解决百度AIStudio中 matplotlib画图中文显示问题

   百度AIStudio是一个挺好的提供免费算力的深度学习开发平台,不过目前只支持使用百度自己开发的paddlepaddle框架,tensorflow和pytorch等暂不支持,不过如果会主流深度学习框架的话上手paddle也很快。但是如果在里面用matplotlib画图的话稍微有点麻烦,英语没问题,但他的中文字体并没有安装在matplotlib的ttf文件夹下,所以常规设置方法并不奏效(如下...

2020-04-04 17:48:34 3496

原创 Pandas筛选包含特定字符的列

问题提出:比如有一个三百多列的数据集,想要快速找到包含xxx的列,这里有三种方法if判断+列表解析式[x for x in df.columns if 'xxx' in x]str.contain()+列表解析式[x for x in df.columns[df.columns.str.contain('xxx')]]filter函数df.filter(like='x...

2020-03-31 18:02:17 11714

原创 Pandas删除行列

Pandas删除行列删除行列的方法有主要有del和drop方法1. del方法del方法主要用于删除列df = pd.read_csv(file)#删除列del df[column_name]#例如,删除name列del df['name']2. drop方法drop方法最常用,可删除单行单列与多行多列,需指定axis参数删除行:# 删除索引为2和3的两行df.dro...

2020-03-19 15:59:08 3450

原创 Java组合和继承

组合和继承这两种方法和复用代码相关。可以通过创建新类来复用代码,Java中主要有两种方式:组合:在新的类中产生现有类的对象。这样,由于新的类是由现有类的对象所组成,所以叫组合。package C7_Reusing;/*创建一个简单的类 * 在第二个类中,将一个引用定义为第一个类的对象 * 运用惰性初始化来实例化这个对象 * */class ideaPad{ ideaPad(...

2019-09-03 10:23:16 146

原创 欧洲豪门俱乐部队徽配色,色彩编码

一时脑洞大开之作,见笑了哈~~1. 西甲联赛联赛logo:颜色编码 ████ #970186 ████ #fe0000 ████ #fe7c00 ████ #fce300 ████ #00ac00 ████ #0091fe ████ #024ad2 ████ #000000巴萨:颜色编码

2019-08-26 00:44:07 2715

原创 Matplotlib,seaborn画图实例汇总【持续更新】

matplotlib和seaborn好用是好用,就是是在太复杂,有时候一些细节的操作总需要不断去百度查各种方法。在此特地记录下自己用这两个工具进行各种可视化作图的代码,包括图像放大,设置颜色,标签,图例,多图等各种操作,像一个笔记本一样。这个笔记本持续更新……调整图像大小plt.rcParams['figure.figsize'] = [8, 6]画堆叠柱状图原数据如下:...

2019-08-22 22:01:22 1536

原创 Java修饰符访问作用域

Java里写类或者函数、变量时,有四种访问修饰符,用来控制其作用域:default:就是不加修饰符。class Person { String name; int age;}public:公共的,这个作用域范围最广。public class Pet { public String kind; public int age}private:私有的,和public对应,...

2019-08-19 16:11:39 628

原创 Pandas根据列数值类型索引【20200329更新】

pandas里常用的筛选、索引工具主要有loc:按行列标签名称进行索引和筛选iloc:根据行列索引序号进行索引at:根据行列标签找到相应单元格的值iat:根据行列索引序号找到相应单元格的值这里有个需求,以fifa19数据为例,列标签有多种数据类型:>>> fifa19.dtypesID int64Name ...

2019-08-18 23:36:04 1045

原创 DataWhale机器学习高级算法梳理Day4-LightGBM算法梳理

LightGBMLightGBM是一个实现GBDT算法的框架,支持高效率的并行训练,并且具有以下优点:更快的训练速度更低的内存消耗更好的准确率分布式支持,可以快速处理海量数据和XGBoosting等GBDT算法相比的主要优化点:基于 Histogram 的决策树算法带深度限制的 Leaf-wise 的叶子生长策略直方图做差加速直接支持类别特征(Catego...

2019-08-15 15:35:16 263

原创 DataWhale机器学习高级算法梳理Day3-XGBoosting

算法原理参考文章:Gradient Boosting梯度提升-GBDT与XGBoost解析及应用 理解XGBoost集成算法梳理——XGBoost回顾前面的梯度提升算法,知道梯度提升使用前序模型的预测值fm−1(xi)f_{m-1}(x_i)fm−1​(xi​)和标签值yiy_iyi​之间的残差Dm^={(xi,rim)i=1,2…n}\hat{D_m}=\{(x_i, r_{im})i...

2019-08-12 20:45:45 248

原创 python调用百度地图,通过经纬度定位

百度地图首先要申请开发者认证和ak,网址在这儿:百度地图开放平台然后创建项目,这里注意要选择浏览器端:再找到web服务接口,根据经纬度定位的功能在逆地理编码中:来查看服务文档,默认返回的是json格式,json格式对于python来说也是非常容易处理的,记得导入json库就好。发现城市在返回结果中的位置:这样可以很快写代码了:import requestsimport json...

2019-08-10 22:30:03 6231 3

原创 DataWhale机器学习高级算法梳理Day2-GBDT

GBDT:Gradient Boosting Decision Tree(梯度增强决策树)以决策树为基学习器的梯度增强集成算法。集成学习三种主要方法:boosting, bagging, stackingboosting通过分步迭代来构建模型。梯度提升方法:通过在迭代的每一步沿着梯度最陡方向降低损失,来构建一个学习器。优点:1) 可以设置不同的可微函数处理各类学习任务。2) 引入bag...

2019-08-09 20:50:40 239

原创 markdown画流程图,流程图语法

Created with Raphaël 2.2.0输入数据t < TRGV上是否有物料在Ⅱ类CNC中找到目标CNC目标CNC上是否有物料上下料及清洗时间更新在除去空Ⅱ类CNC中找到目标CNC目标CNC是否为Ⅰ类CNCⅠ类CNC上是否有物料下料为目标Ⅱ类CNC上下料及清洗输出结果上料及清洗yesnoyesnoyesnoyesnoyes...

2019-08-07 22:56:08 8392

原创 DataWhale机器学习高级算法梳理Day1-随机森林

1. 集成学习集成学习(Ensemble learning)通过构建多个学习器来完成学习任务,有时也被称为多分类器系统,基于委员会的学习等等。结构如下:个体学习器通常由一个现有的学习算法从训练数据中产生。集成中只包含同种类型的个体学习器叫同质学习器,也叫基学习器,相应的算法被称为基学习算法。对应包含不同类型的个体学习器的集成,叫异质学习器,由不同的学习算法组成。此时,集成里的个体学习器被称...

2019-08-07 20:48:13 286

翻译 自适应线性神经元和梯度下降

  这一节我们会了解单层神经网络的一种形式:自适应线性神经元(Adaline)。  这个算法的有趣之处在于它阐述了定义和最小化损失函数的关键概念,这位后面许多机器学习分类算法,如逻辑回归,支持向量机和回归模型等打下了基础。自适应线性神经元和感知机的关键差别在于权重的更新是根据线性激活函数而不是感知机里的分段函数。在Adaline中,这个线性激活函数ϕ(z)\phi(z)ϕ(z)仅仅是净输入的确...

2019-07-27 19:07:15 631

翻译 【第二章】训练简单的分类机器学习算法

在本章中,我们会用到两个分类算法,感知机和可调线性参数。本章要点如下:构建机器学习的直觉基本的数据处理和可视化运用线性分类算法

2019-07-25 15:16:58 250

原创 将VSCode中的代码文件插入word并保持高亮

  以java文件为例:代码原来长这样: package my.hdfs; import java.io.IOException; import java.net.URI; import java.net.URISyntaxException; import org.apache.hadoop.conf.Configuration; ...

2019-07-15 15:49:57 14117 3

原创 scrapy多级爬虫_简单pipeline_应届生求职网

  这次的目标对象是应届生求职网,要爬取的内容是上海地区的所有岗位及相关详细信息。  首先观察网页,找到我们需要的信息:点进一个详情页面:图中框出来的就是我们需要的信息。首先观察知道这不是异步加载网页,是个很常规的静态网页。在一级页面上,我们看到除了普通的职位之外,还有一些是标注了vip的。普通网页和vip页面的链接和网页格式是不一样的。第一步scrapy创建项目和爬虫,这个不用多说...

2019-07-09 09:29:11 518

原创 scrapy异步加载多级爬虫_智联招聘

  吼吼吼!终于写到这里了,今天写用scrapy框架写多级爬虫,目标网站是智联招聘,要爬取的数据是上海地区学位要求是本科及以上的所有岗位数据。  主要过程描述,首先爬取到每个职位的详细url,再进入职位的url中获取更详细的信息。在一级页面上我们可以获取这些信息:在二级页面上获取这些信息:  大致的流程是这样,接下来开始分析网页。  目标地址页面在这儿,要注意,这里是个ajax异步加载网页...

2019-07-06 21:32:10 404

翻译 【第一章】让计算机在数据中学习 1-7章(上)

本章要点:机器学习的基本概念三种学习类型和主要术语成功设计一个机器学习系统的基础安装python1.构建智能机器将数据转化为信息2.机器学习三种主要类型监督学习标记数据直接反馈预测收益/未来无监督学习无数据标记无反馈发现数据中隐藏的结构强化学习决策过程奖励机制学习系列动作/行为3.用监督学习做预测比如做一个垃圾邮件过滤:我们用监督...

2019-06-16 22:32:53 274

原创 Pandas之stack()和unstack()用法

学习pandas的时候一直搞不清stack()和unstack(),看起来就是把df转了转但一直不知道具体原理。看了【Python】pandas轴旋转stack和unstack用法详解后,觉得清楚了很多,再结合《利用python进行数据分析》的解释和例子,写下这篇博客作一个总结和思考。stack()即“堆叠”,作用是将列旋转到行unstack()即stack()的反操作,将行旋转到列看个栗...

2019-04-06 15:06:20 26441 4

原创 Pandas中关于reindex(), set_index()和reset_index()的用法

参考文章:Pandas详解八之ReIndex重新索引pandas中关于set_index和reset_index的用法Pandas set_index&reset_index首先说reindex()《利用python进行数据分析》中写:reindex()方法用于创建一个符合新索引的新对象①对于Series类型,调用reindex()会将数据按照新的索引进行排列,如果某个索引值...

2019-04-06 10:43:34 17109 3

原创 python爬虫-60行代码实现爬取教务处成绩

爬成绩的想法由来已久,寒假在家就动手操作了一下。我们学校的教务处登录是不需要验证码的,所以爬这个也相对简单些。写好后又用面向对象方法重新调整了代码,更美观也更符合python简洁优美的风格。本文最后附上源代码和所用库的官方文档,方便大家学习。所用到的库有requests, beautifulsoup和csv三个。首先我们看登录页面:只需要用户名和密码两个信息。在网页端登录后查看页面信息:...

2019-01-30 11:23:54 4404 3

原创 GitHub高级检索功能实例探索

本文参考自CSDN博文:你真的知道如何在 GitHub 上高效搜索开源项目吗?接下来是对文章提到的“高级搜索”方法的一点实践在标题中搜索—— in:name 关键词示例:在标题中搜索爬虫“crawler”in:name crawler搜索结果的标题均包含关键词crawler在描述中搜索——in:description 关键词示例:in:description NLP标题下的灰...

2019-01-22 17:02:40 228

原创 181204Python学习日记——GUI图形界面之tkinter

GUI图形界面开始让我有了一点点开发软件的感觉,目前还没有学完,但今天就比较好的实例做一点分享import tkinter as tkimport tkinter.messageboxclass Application(tk.Frame): #派生于Frame类 def __init__(self,master = None): #构造函数,master为父窗口 ...

2018-12-04 19:11:35 314

原创 181122 Python学习日记——体育竞技模拟(IPO模式)

上次也写了一个关于顶层设计的体育竞技模拟的程序,但是学习后感觉还是不对,所以重新编辑了一下,再理一理思路。首先有一个主程序main()往下依次把问题分解为:1.打印基本信息(介绍规则,所需信息等等)2.获取必要参数(回合/场次,双方对手的能力值)3.计算要求场次下A,B的胜率,场次4.输出结果介绍———————————————分割线——————————————————定义顶层函数...

2018-11-22 22:38:34 771

原创 181118 Python学习日记——词云

今日金句:词云需要用到一个第三方库:wordcloud这个库安装起来还是蛮简单的cmd命令行下输入:pip install wordcloud 就可以了其基本应用模式如下:import wordcloud w = wordcloud.WordCloud() w.generate(&amp;lt;文本内容,可以是字符串也可以是txt文件&amp;gt;)w.to_file(&amp;lt;保存的文件...

2018-11-18 20:34:23 147

原创 181117 Python学习日记——体育竞技模拟(自顶向下计算思维)

纪录的第二天,写写自己这两天学了些什么吧。今日金句:3:22 我们不至消灭、是出于耶和华诸般的慈爱、是因他的怜悯、不至断绝。3:23 每早晨这都是新的.你的诚实、极其广大。 体育竞技模拟,题目如下:回合制,先由一方发球,如胜利,则得1分并继续发球,如失败,则双方分数不改变并交换球权。球员AB的能力为0-1之间的一个数值#INPUTdef InputIntro(): prin...

2018-11-17 22:14:40 450

原创 181115 Python学习日记——词频统计

主要使用第三方库:jiebaimport jiebaf = open('三国演义.txt','r').read()word_count = {}for word in f: if word in ',。:;”“‘’—!——': word.replace(word,' ')words = jieba.lcut(f)for letter in words: ...

2018-11-15 19:21:26 301

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除