Gwiqudo-CSDN博客

原创吴恩达机器学习笔记——汇总

介绍：吴恩达（1976-，英文名：Andrew Ng），华裔美国人，是斯坦福大学计算机科学系和电子工程系副教授，人工智能实验室主任。吴恩达是人工智能和机器学习领域国际上最权威的学者之一。吴恩达也是在线教育平台Coursera的联合创始人（withDaphne Koller）。2014年5月16日，吴恩达加入百度，担任百度公司首席科学家，负责百度研究院的领导工作，尤其是Baidu Brain计划。...

2018-10-29 17:50:29 603

原创问题背景：大模型的外推性问题

将LLM上下文context扩充4k、8k、甚至32k的长度。以LLaMA为例，详细原理及代码实现

2023-06-30 17:29:33 1658

原创 Pandas.DataFrame Merge两个表时的效率对比和加速方法

Pandas.DataFrame Merge两个表时的效率对比和加速方法借用Riiid的数据集进行实验对比。方法1: 直接merge方法2先设置index为merge的公共列, eg: df_user.index.name = ‘user_id’然后再merge,使用参数: right_index = True可以看到，相较于原始的merge方法。新的方法有13x倍的加速效果。方法3先设置index为merge的公共列, eg: df_user.index.name = ‘user

2020-12-02 16:17:52 8742 3

原创 label smoothing

label smoothing背景:当我们将交叉熵损失函数用于分类任务的时候,我们期望真实的标签为1,而其他虚假的标签为0。换句话来说,我们认为原始数据的标注是准确无误的。但是，真实情况并不是这样，在某些领域，或者使用一些数据增强的方法时,都会存在着一些标注错误的问题出现。因此,label smoothing的方法可以降低我们对于标签的信心，比如我们将损失目标的值从1降低到0.9，当然与此同时我们需要稍微增加一下其他label(label==0)的目标值。这种方法被称为标签平滑。操作方式:impor

2020-10-12 14:10:24 524

原创切换python 依赖包版本

1. os.system("python -m pip install --upgrade scikit-learn==0.19.2")update命令可以直接顶掉之前的包，不管是版本比它大的还是版本比它小的2.import pkg_resourcespkg_resources.require("scikit-learn==0.19.2")可以自由切换版本。...

2019-12-18 22:55:30 2370

原创使用keras手写layerNormaliztion , attention,self_attention,multi_head_attention代码

from keras.models import Model, load_modelfrom keras.layers import Input, BatchNormalization, Activation, Add, Multiply, Dotfrom keras.layers import Embedding, Permute, Reshape, GaussianNoisefrom ...

2019-12-02 21:01:08 1232 1

原创 module 'tensorflow' has no attribute 'get_default_graph'

解决方法：都用tensorflow导入即可：from tensorflow.keras import Sequentialfrom tensorflow.keras.layers import Dense,TimeDistributed,LSTM,Dropoutfrom tensorflow.keras.optimizers import RMSpropfrom tensorflo...

2019-05-24 17:21:45 3239

原创 jupyter 使用ssh远程访问。

两步搞定1 shell：jupyter notebook --no-browser --port=8889 就ok2. 本地cmd命令： ssh -N -f -L localhost:8888:localhost:8889 用户名@服务器地址 for example wq@172.26.112.83完美...

2019-04-22 20:57:43 2557

原创 kaggle-地震预测-LANL Earthquake Prediction

kaggle-地震预测-LANL Earthquake Prediction比赛记录1.baseline加入这次比赛的时间比较晚，所以直接先follow了别人的一个baseline来start找找思路，链接如下：https://www.kaggle.com/artgor/seismic-data-eda-and-baseline2.比赛记录时间：2019/04/17,10:35AM ...

2019-04-17 14:58:15 2729

原创 k-Nearest Neighbor（KNN）算法

K 近邻算法的工作原理是：存在一个样本数据集合，也称作训练样本集，并且样本集中每个数据都存在标签，即我们知道样本集中每一数据与所属分类的对应关系。输入没有标签的新数据后，将新数据的每个特征与样本集中数据对应的特征进行比较，然后算法提取样本集中特征最相似数据（最近邻）的分类标签。一般来说，我们只选择样本数据集中前 kk 个最相似的数据，这就是 K 近邻算法中 kk 的出处，通常 kk 是不大于 ...

2019-02-12 00:34:26 307

原创 python enumerate format join

1.enumerate用法#enumerate()函数用于将一个可遍历的数据对象（如列表、元组、字符串等）组合为一个索引序列，同时列出数据和数据下标，一般用在for循环中。2. map中lambda用法3.fromat格式化输出用法基本语法是通过 {} 和 : 来代替以前的 % 。同样也可以设置各种参数参考：http://www.runoob.com/python/...

2019-02-12 00:20:18 233

原创爬虫常用code

def getwords(txt): #去除所有的标记 txt = re.compile(r'<[^>]+>').sub('',html) #利用所有非字母字符拆分单词 words = re.compile(r'[^A-Z^a-z]+').split(txt) #转化为小写形式 return [word.lower() for w...

2019-02-01 22:28:07 333

原创手虏机器学习——感知机code

感知机（自己理解）：在线性可分的数据集中，找到一个超平面将正负样例数据集分到两个半空间。损失函数为有误分类立即对参数进行更新。演示代码如下：代码写的有点丑陋，w用矩阵来写更方便一点。以后有时间改一下。 ...

2019-01-18 20:04:16 197

原创 matplotlib模块详解

1subplot和subplots绘制子图fig, axes = plt.subplots(figsize=(16,9))axes.set_xlabel('x label')axes.set_ylabel('y label')axes.set_title('title')axes.plot(x, x**2)axes.plot(x, x**3)axes.legend(["y =...

2019-01-02 17:15:10 426

原创 pandas模块学习(pandas详解)

Pandas 百题大冲关Pandas 的数据结构：Pandas 主要有 Series（一维数组），DataFrame（二维数组），Panel（三维数组），Panel4D（四维数组），PanelND（更多维数组）等数据结构。其中 Series 和 DataFrame 应用的最为广泛。Series 是一维带标签的数组，它可以包含任何数据类型。包括整数，字符串，浮点数，Python 对象等。Ser...

2019-01-02 15:55:42 5976

原创 markdown使用方法。

这里写自定义目录标题Pandas 百题大冲关欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导...

2019-01-02 14:08:04 638

原创 No module named 'sklearn.cross_validation'解决方法

在python 机器学习及实践这本书中，交叉验证从cross_validation中引用from sklearn.cross_validation import train_test_split然后报错：No module named 'sklearn.cross_validation'原因：这个cross_validatio这个包早就不在使用了，划分到了model_sele...

2018-12-27 17:52:05 69467 10

原创 tensorflow入门_（函数）

写一些不好记得+常用的。一些简单的就不做记录了1.tf.Session()和tf.InteractiveSession()tf.Session():需要在启动session之前构建整个计算图，然后启动该计算图。意思就是在我们使用tf.InteractiveSession()来构建会话的时候，我们可以先构建一个session然后再定义操作（operation），如果我们使用tf.Ses...

2018-12-21 15:39:10 185

原创 python处理txt的操作，打开时的读写，r,r+,w,w+,a,a+表示的意义。及正则替换

f1 = open('/tmp/test.txt','w')r 打开只读文件，该文件必须存在。r+ 打开可读写的文件，该文件必须存在。w 打开只写文件，若文件存在则文件长度清为0，即该文件内容会消失。若文件不存在则建立该文件。w+ 打开可读写文件，若文件存在则文件长度清为零，即该文件内容会消失。若文件不存在则建立该文件。a 以附加的方式打开只写文件。若文件不存在，则会建立该文件，如果...

2018-12-20 22:29:14 8165

原创 PCA用法详解+code

PCA数学原理（超详细）：http://blog.codinglabs.org/articles/pca-tutorial.htmlcodeIn [1]:import numpy as npimport pandas as pdfrom matplotlib import pyplot as pltimport mathdf = pd.read_csv('iris.cs...

2018-12-20 21:50:47 731

原创 python class 类的学习

class Car(): wheelNum=4 color='red' def getCarInfo(self,name): self.name = name print(self.name,'有%d个轮子，颜色是%s。'%(self.wheelNum,self.color)) def run(self): prin...

2018-12-20 21:43:41 312

原创 Andrew机器学习课程章节15——降维

作用：1压缩数据来减少存储数据所需要的空间存储方差保留的百分比 99%2.可视化特征高度相关data visualizationpca找到一个面，使点到线段的长度平方和最小。1.先进性均值归零化。找到一个向量，使其表示能够最小化投影误差的方向。将N维降为K维，故我们要寻找K个向量来对数据进行投影。投影到这k个向量展开的线性子空间上超平面上...

2018-12-14 22:04:43 218

原创 python_opencv(cv2)模块+灰度图二值化及降噪处理

1.安装：网上说的那些，pip install cv2, opnecv。全！都！是！坑！爹！的！正确的操作方式如下：pip install opencv-python2.具体用法：长期更新，学到哪写到哪。ps:也有可能不更了基本头文件：import cv2import numpy as np读取文件： lenna = cv2.imread("lenn...

2018-12-14 19:27:11 13695 1

原创 python with as 的用法

作用：use of with to prevent memory leakmemoryleak（内存泄漏）内存泄漏（Memory Leak）是指程序中己动态分配的堆内存由于某种原因程序未释放或无法释放，造成系统内存的浪费，导致程序运行速度减慢甚至系统崩溃等严重后果。for example：在使用tensorflow的时候＃创建一个会话。sess=tf.Sess...

2018-12-12 14:24:55 212

原创数据可视化利器——pyecharts详解

1.什么是pyecharts　　pyecharts 是一个用于生成 Echarts 图表的类库。　　echarts 是百度开源的一个数据可视化 JS 库，主要用于数据可视化。pyecharts 是一个用于生成 Echarts 图表的类库。实际上就是 Echarts 与 Python 的对接。　　使用 pyecharts 可以生成独立的网页，也可以在 flask , Django 中集...

2018-12-03 12:04:27 7538

原创通过情感词典分析微博用户心理状态

这里我们先介绍一个python的excel的处理模块——pyexcel_xls具体教学微博数据源文件样式：（实际为txt文件）文件样式：（情感词典）1.首先是模块文件引入和导入文件from pyexcel_xls import get_datafrom pyexcel_xls import save_dataxls_data = get_data('情感词典及其分...

2018-12-02 22:55:21 1573 1

原创吴恩达课程机器学习代码练习

ex1 （Liner Regression)result1. ComputeCost（计算损失）function J = computeCost(X, y, theta)m = length(y); % number of training examplesJ = 0J = sum((X * theta - y).^2) / (2*m); 2.gradientDes...

2018-11-21 19:49:05 277

原创 python 保存数据为excel格式和txt格式

excel 保存方法：book = xlwt.Workbook() #创建表单sheet = book.add_sheet(u'sheet1',cell_overwrite_ok=True)sheet.write(0,0,'id')sheet.write(0,1,'text')sheet.write(0,2,'user_id')sheet.write(0,3,'geo_coo...

2018-11-20 20:50:39 5683 1

原创使用python连接mongodb查找指定数据爬取用txt or excel保存

import pymongoimport csvimport jsonimport sysimport importlibimportlib.reload(sys)import xlwtfrom pymongo import MongoClient该导的先导进来mongo_url = "172.28.9.62:1234"# mongodb服务的地址和端口号url参数...

2018-11-20 20:39:52 827

原创 Andrew机器学习课程章节13——支持向量机（support vector machine)

挖挖坑

2018-11-18 21:34:15 138

原创 Andrew机器学习课程章节6——Octave Matlab教程

1基本操作：1.在Octave 中！=要写为 ~=。2.异或为xor（x,y)3.disp(a); 直接输出a的值4.disp(sprintf('%0.2f',a)）格式化输出5.format long (short) 指定长度6.生成矩阵和向量： A=[1 2; 3 4; 5 6] // ;相当于换行7. v =1:0.1:2 (a:b:...

2018-11-16 20:50:39 215

原创爬虫常见问题。

1.如果遇到带有中文的url怎么办如果URL中存在中文，而你却不对它做任何处理，他不会达到你所想的那样，因此我们需要将中文部分进行处理，要用到urllib.parse模块中的quote将中文转化成URL所需的编码，url中的中文要单独处理，不能中英文全部合在一起处理（因为一部分的特殊字符也会被处理掉）。import urllib.parse word='龙'word=urllib....

2018-11-11 22:31:12 395

原创 Andrew机器学习课程章节5——正则化

to ameliorate or reduce the overfitting called regularization 理论上n个n次项系数可以完全拟合一个通过n+1个点的曲线，当参数无限时，我们甚至可以将训练集的代价函数变为0。但此时，会产生过度拟合现象，使其无法generalize（泛化）到新的样本中。此时，我们就需要正则化。 Options：1.reduce nu...

2018-11-06 22:40:33 343

原创 Andrew机器学习课程章节5——Logistic回归

线性回归用于分类问题通常不是什么好的主意Logistc 回归实际上是一种分类算法用在离散值为0 or 1的情况下。即：预测的变量y是一个离散值，情况下的分类问题。在此，为了将值限定在[0,1]中，我们引入一个新的函数sigmod函数：其意义是，对于给定的输入变量x，根据选择的参数θ计算输出变量=1 的可能性,for example:hθ(x)=0.7，则表示有 70%的几率 ...

2018-11-06 22:18:23 186

原创 python—【爬虫】学习_3(异常处理）

1.URLError首先解释下URLError可能产生的原因：网络无连接，即本机无法上网连接不到特定的服务器服务器不存在在代码中，我们需要用try-except语句来包围并捕获相应的异常。2.HTTPErrorHTTPError是URLError的子类，在你利用urlopen方法发出一个请求时，服务器上都会对应一个应答对象response，其中它包含一个数字”状态码”。举...

2018-11-01 21:31:22 190

原创 python—【爬虫】学习_2(正则表达式篇）3.re模块函数的深入理解

1. re.complie()作用：如果需要重复地使用某个正则表达式，那么你可以先将该正则表达式编译成模式对象。complie（）函数就帮助我们将正则表达式，编译成为一个pattern对象。2.re.search(pattern ,string)regex.search(string[, pos[, endpos]]) pattern = re.compile("d") &...

2018-11-01 20:56:44 287

原创周常：HackerRank 算法题。(10-29~11.4)

致力于写出最简短的answer：Diagonal Differencen = int(input())arr = []for _ in range(n): arr.append(list(map(int, input().rstrip().split())))ans = 0for i in range(n): ans += arr[i][i]-arr[i][n-...

2018-10-30 22:39:28 1141

转载深度学习机器学习基本概念和数学知识（汇总）

1.熵和交叉熵，KL散度一文搞懂交叉熵在机器学习中的使用，透彻理解交叉熵背后的直觉2.正则中 L1 和 L2 的解释【通俗易懂】机器学习中 L1 和 L2 正则化的直观解释...

2018-10-30 20:46:28 452

原创 Andrew机器学习课程章节4——多变量线性回归

1.关于多变量的表示如上图所示，x表示训练集，n为总数，i为第几个训练集，j为第j个特征。2.多变量假设函数的表现形式：（多变量线性回归）3.多元变量梯度下降：没啥可说的，跟一元一样多元梯度下降运算中的实用技巧：1.特征缩放（feature scaling)当特征值之间比例差距很大的时候，生成的等高线曲面可能如图左一样，使得梯度（红色）下降异常缓慢。...

2018-10-30 15:52:52 360

原创 Andrew机器学习课程章节3——线性回归回顾

本章主要讲解了一些基本的线性代数知识。（非常基础，没看视频的感觉可以直接跳过，防止浪费时间）matrix（矩阵）：在数学中，矩阵（Matrix）是一个按照长方阵列排列的复数或实数集合vector（向量）：特殊的矩阵，只有一列的矩阵，即 Nx1 matrix一般使用小写字母来表示向量，大写字母表示矩阵。接下来两个视频是讲矩阵的加，减，乘法。（略）predication...

2018-10-30 15:02:44 379

空空如也

空空如也