小强的呼呼呼-CSDN博客

原创二叉树题目总结(Java版本)

二叉树总结1. 重建二叉树import java.util.*;public class Solution { public TreeNode reConstructBinaryTree(int [] pre,int [] in) { if(pre.length == 0||in.length == 0){ return nu...

2018-03-27 02:30:33 401

原创回溯法题目总结

1. 数字键盘组合17. Letter Combinations of a Phone Numberclass Solution { private static final String[] keys = {"", "", "abc", "def", "ghi", "jkl", "mno", "pqrs", "tuv&

2018-03-16 02:40:49 601

原创链表题目总结

链表题目总结1. 从尾到头打印链表思路: 使用递归import java.util.ArrayList;public class Solution { // 定义在外部，以防递归的时候被覆盖 ArrayList<Integer> ret = new ArrayList<>(); public ArrayList<Integ...

2018-03-14 00:48:52 388

1. 分饼干Leetcode : 455. Assign Cookies (Easy) Assume you are an awesome parent and want to give your children some cookies. But, you should give each child at most one cookie. Each child i has a gree...

2018-03-13 19:18:18 786

原创双指针问题总结

双指针题目1. 和为S的连续正数序列思想: 设计前后两个指针以及一个用于保存当前和的变量import java.util.ArrayList;public class Solution { public ArrayList<ArrayList<Integer> > FindContinuousSequence(int sum) { ...

2018-03-13 01:12:26 1103

原创数据结构-数组题总结

1. 二维数组中的查找在一个二维数组中，每一行都按照从左到右递增的顺序排序，每一列都按照从上到下递增的顺序排序。请完成一个函数，输入这样的一个二维数组和一个整数，判断数组中是否含有该整数。主要思路：利用二维数组的有序性，定向地搜索。public class Solution { public boolean Find(int target, int [][] array) ...

2018-03-12 20:38:33 789

转载稳定排序和不稳定排序

https://www.cnblogs.com/codingmylife/archive/2012/10/21/2732980.html

2017-12-04 22:08:44 400

原创精确率、召回率、F1 值、ROC、AUC 各自的优缺点

本文主要汇总了知乎的回答[https://www.zhihu.com/question/30643044] ROC曲线的概念：http://blog.csdn.net/abcjennifer/article/details/7359370 PRC曲线的概念: http://blog.csdn.net/u012089317/article/details/521565141. 总体介绍ROC：RO

2017-10-01 23:44:28 3053

原创非常好的t-SNE介绍

从SNE到t-SNE再到LargeVis，转自http://bindog.github.io/blog/2016/06/04/from-sne-to-tsne-to-largevis

2017-09-29 17:24:05 1506

原创 Quora比赛代码学习笔记

1.sns调色板使用pal = sns.color_palette()2.打印文件大小print('# File sizes')for f in os.listdir('../input'): if 'zip' not in f: #ljust() 返回一个原字符串左对齐,并使用空格填充至指定长度的新字符串。如果指定的长度小于原字符串的长度则返回原字符串。

2017-09-28 23:01:40 518

原创 python os模块常用命令

1. os.name()——判断现在正在实用的平台，Windows 返回 ‘nt'; Linux 返回’posix'2. os.getcwd()——得到当前工作的目录。3. os.listdir()——指定所有目录下所有的文件和目录名。例： 4. os.remove()——删除指定文件5. os.rmdir()——删除指定目录6. os.mkdir(

2017-08-30 13:38:36 262

原创 Python的argparse库用法

一、argparse介绍argparse 是 Python 内置的一个用于命令项选项与参数解析的模块，通过在程序中定义好我们需要的参数，argparse 将会从 sys.argv 中解析出这些参数，并自动生成帮助和使用信息。当然，Python 也有第三方的库可用于命令行解析，而且功能也更加强大，比如 docopt，Click。二、argparse的使用创建 ArgumentParser() 对象

2017-08-28 17:41:49 2070

原创 python进度条 tqdm 解析

一、使用方式 1. 自动控制进度更新>>> for i in tqdm(range(9)):... sleep(0.1)100%|####################################################################| 9/9 [00:00<00:00, 9.95it/s]2.手动更新方式>>> with tqdm(total=10

2017-08-28 16:48:25 1502 1

原创 Sklearn库学习笔记1 Feature_Engineering之预处理篇

一、预处理1. Binarizer 二值化处理from sklearn.preprocessing import Binarizerimport numpy as np'''数据二值化处理:适用场景：泊松分布，文本数据操作特点：返回对于数值特征的阈值判断'''x_train = np.array([[1,2,-1], [2, 3, -2],

2017-08-28 16:06:37 635 1

原创线性回归中何时中心化和标准化训练数据

注明: 本文主要参考https://stats.stackexchange.com/questions/29781/when-conducting-multiple-regression-when-should-you-center-your-predictor-varia中的回答一般来说，我们再做线性回归时并不需要中心化和标准化数据。大多数情况下数据中的特征会以不同的测量单位展现，无论有没有中心化

2017-08-07 14:51:52 7240 2

原创 Google Cloud 磁盘满解决办法

使用命令：df -lkadslwang4605@instance-1:~/assignment1/data$ df -lkFilesystem 1K-blocks Used Available Use% Mounted onudev 15432536 0 15432536 0% /devtmpfs 3088044

2017-08-03 16:34:56 5703

原创 Pandas 中map, applymap and apply的区别

1.apply()当想让方程作用在一维的向量上时，可以使用apply来完成，如下所示In [116]: frame = DataFrame(np.random.randn(4, 3), columns=list('bde'), index=['Utah', 'Ohio', 'Texas', 'Oregon'])In [117]: frameOut[117]: b

2017-07-30 18:52:40 50180 5

原创 Python中@staticmethod和@classmethod的区别和用法

Python其实有3类方法：静态方法（staticmethod）类方法（classmethod）实例方法（instance method）常规方式, @classmethod修饰方式, @staticmethod修饰方式.def foo(x): print "executing foo(%s)" %(x)class A(object): de

2017-07-29 18:12:07 900 1

原创梯度爆炸的解决办法：clip gradient

1.梯度爆炸的影响在一个只有一个隐藏节点的网络中，损失函数和权值w偏置b构成error surface，其中有一堵墙，如下所示损失函数每次迭代都是每次一小步，但是当遇到这堵墙时，在墙上的某点计算梯度，梯度会瞬间增大，指向某处不理想的位置。如果我们使用缩放，可以把误导控制在可接受范围内，如虚线箭头所示2.解决梯度爆炸问题的方法通常会使用一种叫”clip gradients “的方法. 它能

2017-07-26 17:27:36 32344 6

原创 python assert 断言详细用法格式

1.assert的作用当我们在写完一个程序，但是还不够完善的时候。我们想要程序在某个位置条件不满足时就终止程序，这时可以使用assert来提前中断程序，并显示自定义错误信息2.assert的用法assert 1==1assert 2+2==2*2assert len(['my boy',12])<10assert range(4)==[0,1,2,3] assert stack == ex_s

2017-07-22 17:05:24 1732 1

原创 Python中赋值、浅拷贝与深拷贝

Python中关于对象复制有三种类型的使用方式，赋值、浅拷贝与深拷贝。我们来看看他们之间的区别先来看一下这段程序>>> import copy>>> a = [1,2,3,4,['a','b']]>>> b = a　　　　# a,b两者指向的是同一个内存地址>>> c = copy.copy(a)　　# 仅仅拷贝了最外层，list中的元素指向的是同一个内存地址>>> d = copy.d

2017-07-21 14:53:55 369

原创 Softmax的求导

按定义(一般资料中的定义)，softmax 的似然函数为： ∏i∏kPk(xi)I(y(i)=k)\prod\limits_i\prod\limits_kP_k(x_i)^{I(y^{(i)}=k)} 另一种等价的表达是： ∏i∏keθTkXiI(y(i)=k)∏lKeθTjxi\prod\limits_i{\frac{\prod\limits_k

2017-07-21 14:51:45 318

原创 python中压缩和解压文件的方法

import osimport zipfiledef zipdir(path, ziph): # ziph is zipfile handle for root, dirs, files in os.walk(path): for file in files: ziph.write(os.path.join(root, file))if __

2017-07-14 12:03:44 1355

原创 Python常见函数总结

List.extend： extend() 函数用于在列表末尾一次性追加另一个序列中的多个值（用新列表扩展原来的列表）。aList = [123, 'xyz', 'zara', 'abc', 123];bList = [2009, 'manni'];aList.extend(bList)print "Extended List : ", aList ;输出Extended List : [

2017-07-13 15:36:51 332

原创 CS20SI Tensorflow for Deeplearning课程笔记(四) word2vec with NCE loss and visualize the embeddings

tensorflow word2vect

2017-07-13 15:18:36 2011

原创 word2vec简要教程

一、 Word2Vec Tutorial1.discrete representation(one-hot)的缺点one-hot vector 不能够表示词之间的相似性，例子如下，motel和hotel是意思相近的两个词，可是两个词的one-hot vector却是正交的。所以我们考虑使用一种维度较低并且有递推关系的向量来表示词，相似的词具有相似的向量。比如语料库有1W个词，如果用one-hot来表

2017-07-12 15:46:29 819

原创 CS20SI Tensorflow for Deeplearning课程笔记(三)

逻辑回归在Tensorflow中的示例总共有以下几个步骤读取数据定义placeholder给特征和标签定义权重和偏差变量建立模型定义损失函数定义优化算法初始化各变量以及求batch的size训练模型，累加误差测试集测试，输出准确度函数如下所示"""Starter code for logistic regression model to solve OCR task w

2017-07-11 19:51:00 355

原创 virtualenv 虚拟环境的使用

virtualenv可以用来为一个应用创建一套“隔离”的Python运行环境。有时候A应用需要xxxx 0.1 版本，B应用需要xxx0.5版本，版本相差较大，这时候就要将开发环境隔离起来。下面介绍virtualenv的使用安装virtualenv$ pip3 install virtualenv # pip2 for python2.x创建目录xiaoqiangdeMacBook-Pro:~

2017-07-11 17:03:41 431

原创 Kaggle-ValueError: Input contains NaN, infinity or a value too large for dtype('float32').

在做kaggle的这个word2vec的教程时候遇到这个问题，解决办法是from sklearn.preprocessing import ImputertrainDataVecs = Imputer().fit_transform(trainDataVecs)

2017-07-11 16:40:03 2135

原创 NLTK使用总结

nltk.tokenize.punkt() 这个class能将text拆分成句子，但是会保留标点符号，比如括号之类的import nltk.datatext = '''... Punkt knows that the periods in Mr. Smith and Johann S. Bach... do not mark sentence boundaries. And someti

2017-07-11 12:58:51 766

原创 UnicodeDecodeError解决方案

在使用tokenizer.tokenize()时候会遇到UnicodeDecodeError的问题，因为默认情况下，Python采用的是ascii编码方式，如下所示：python -c "import sys; print sys.getdefaultencoding()"ascii而Python在进行编码方式之间的转换时，会将 unicode 作为“中间编码”，但 unicode 最大只有 12

2017-07-11 12:31:52 1320

原创 CS20SI Tensorflow for Deeplearning课程笔记(一)

一、课程目标理解TF的计算图方法探索TF的内置函数学会怎么去构建和组织最好的模型去做深度学习项目二、书籍TensorFlow for Machine Intelligence (TFFMI)Hands-On Machine Learning with Scikit-Learn and TensorFlow. Chapter 9 Up and running with TensorFl

2017-07-08 23:14:12 633

原创 CS20SI Tensorflow for Deeplearning课程笔记(二)

1.TensorBoradTensorBorad是一个很好的可视化工具。import tensorflow as tfa = tf.constant(2)b = tf.constant(3)x = tf.add(a, b)with tf.Session() as sess: writer = tf.summary.FileWriter('./graphs', sess.graph)

2017-07-05 21:26:02 2218

原创使用Scrapy实现模拟登录的方法

许多网站都会要求先登录才能获取内容，所以必须要学会如何实习模拟登录，这里介绍使用Scrapy实现模拟登录的两种方法。目前还没试过自动识别验证码，所以以下的验证码都是需要手动输入的一、使用Scrapy直接登录首先用Chrome打开知乎的登录界面，随便输入错误的账号和密码。第一步我们先想想怎么获取验证码，页面点右键，点击“检查元素->network”，我们刷新一下验证码，会看到出

2017-07-05 14:01:25 2165

原创 Kaggle常用函数总结

kaggle比赛也参加了好几次，在这里就把自己在做比赛中用到的函数汇总到这，方便自己以后查阅，当然也会不断地更新。1. 数据处理# 数据预处理# 1. 读取数据：data_macro = pd.read_csv("macro.csv", parse_dates=['timestamp'], usecols=['timestamp'] + macro_cols)# 2. 显示为object的属性：

2017-07-03 21:47:34 5098 4

原创 Scrapy爬取图片并保存

Scrapy提供了一个 item pipeline ，来下载属于某个特定项目的图片，比如，当你抓取产品时，也想把它们的图片下载到本地。本文接豆瓣top250电影，爬取海报图片。一、ImagesPipeline的工作流程首先在爬虫项目中获取图片的image_urlsitem[‘image_urls’]进入管道中当项目进入 ImagesPipeline，image_urls 组内的URLs将

2017-07-02 17:46:41 12827 4

原创 Scrapy教程(一)爬取豆瓣top250电影

一、介绍个人最近学习scrapy的一个练手项目，因为是爬取静态网页比较简单，不过还是基本熟悉了用scrapy进行爬虫的流程。爬取的是豆瓣top250的电影名称，导演，评分等。二、代码解析首先创建初始爬虫项目, cd到想保存的目录，然后在命令行中输入$ scrapy startproject top250然后我们开始更改item.py文件，代码如下import scrapyclass Top250

2017-07-02 16:06:14 1392

原创 Git常用命令总结

一、本地git操作1. 初始化$ git init # 在需要git的目录中2. 添加add和提交commit$ git add <filename> # 提交stage $ git commit -m '注释' # 提交commit3. 查看状态$ git status # 查看工作区状态$ git diff HEAD -- <filename> #查看工作区中文件与最新的comm

2017-06-30 16:08:22 243

原创键值对操作

键值对RDD 通常用来进行聚合计算。我们一般要先通过一些初始ETL（抽取、转化、装载）操作来将数据转化为键值对形式。键值对RDD 提供了一些新的操作接口（比如统计每个产品的评论，将数据中键相同的分为一组，将两个不同的RDD 进行分组合并等）。1. 创建Pair RDD 在Python 中使用第一个单词作为键创建出一个pair RDD pairs = lines.map(la

2017-06-11 21:58:45 597

原创 RDD编程

1. RDD基础： Spark 中的RDD 就是一个不可变的分布式对象集合。每个RDD 都被分为多个分区，这些分区运行在集群中的不同节点上。用户可以使用两种方法创建RDD：读取一个外部数据集，或在驱动器程序里分发驱动器程序中的对象集合（比如list 和se)。例如：用SparkContent.textFile()来读取文本文件作为一个字符串RDD的示例：

2017-06-10 20:54:34 376

空空如也

空空如也