自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

早点变成刘强东就好

北漂的陶小陶的技术栈

  • 博客(36)
  • 收藏
  • 关注

原创 pandas之read_csv参数详解

最近发现pandas强大的惊人,只是不懂。多走了很多歪路,浪费开发效率。准备好好总结一下pandas.pandas.read_csv参数Basicfilepath_or_buffer : varioussep : str, defaults to ‘,’ for read_csv(), \t for read_table()Regex example: ‘\r\t’.delimite...

2019-07-11 11:03:28 2393

原创 链表中环的入口结点 题解

#-*- coding:utf-8 -*-'''@project: exuding-nlp-all@author: tao@time: 2019-06-18 14:58:59 '''#给一个链表,若其中包含环,请找出该链表的环的入口结点,否则,输出null。# class ListNode:# def __init__(self, x):# self.va...

2019-06-18 15:43:19 179

原创 解决CentOS升级python后yum不可用问题

造成原因:CentOS 6.9 默认安装了python2.6.6 因为一些命令要用它比如yum 它使用的是python2.6.6。因为一些程序和框架要求,需要使用python3,于是升级安装了python3。然后建立软连接,使python默认链接到python3解释器。但是这样造成了yum命令的无法使用,是因为yum需要python2。一些yum调用的程序中原本#!/usr/bin/python...

2019-06-17 17:12:02 1043

原创 概率图模型 HMM CRF 学习笔记

1.机器学习最重要的任务,是根据一些可观测的样本数据,对感兴趣的未知变量(例如类别标记)进行评估和推测。概率模型(probabilistic model)提供了一种描述框架,将学习任务归结于计算变量的概率分布。在概率模型中,利用已知变量推测未知变量的分布称为‘推断’,其核心是如何基于可观测变量推测出未知变量的条件分布。注意 推断和预测不同,由果溯因的过程也是推断,而预测则不具备这种能力。概率图模...

2019-06-13 17:34:16 330

原创 基于规则的双向最大匹配算法的分词

双向最大匹配算法(Bi-directction Matching method)是将最大匹配法得到的分词结果和逆向最大匹配法得到的结果通过双向最大匹配算法的规则进行筛选而得到。#-*- coding:utf-8 -*-'''@project: exuding-nlp-all@author: texuding@time: 2019-05-27 15:45:46 '''#正向最大匹配算法...

2019-05-27 16:51:41 798

原创 Svm实现多分类

Svm实现多分类Svm实现多类分类原理代码实现训练的图片Svm实现多类分类原理1.支持向量机分类算法最初只用于解决二分类问题,缺乏处理多分类问题的能力。后来随着需求的变化,需要svm处理多分类分为。目前构造多分类支持向量机分类器的方法主要有两类: 一类是“同时考虑所有分类”方法,另一类是组合二分类器解诀多分类问题。第一类方法主要思想是在优化公式的同时考虑所有的类别数据,J.Weston 和...

2019-05-14 17:17:23 42787 7

原创 python 常见正则表达式

1.替换:语法:str.replace(old, new,[ max])s.replace('中国','世界')输出:'世界是有好大学的,比如北京师范大学[2]'re.sub(r'[+[0-9]+]','',s)输出:'中国是有好大学的,比如北京师范大学'2.替换:语法:re.sub(pattern, repl, string, count=0, flags=0)pattern...

2019-04-18 11:28:12 95

原创 pandas 常用命令

更改列名:(按照列表新旧字典格式更改) df.rename(columns={'name':'school'},inplace=True)多表合并(列不一样时,按照列名为key,合并方式可以通过参数修改,对应sql的形式)df_norm = pd.merge(df_1,df_2,how = 'inner',on = 'school') 用并集的形式合并df_data_bingji = p...

2019-03-22 17:54:39 228

原创 机器学习面试(实习)总结

机器学习实习面试总结算法题:大公司一般上来会有三道算法题,不管是用试卷(百度)还是直接问(头条)都是手写代码,这三道题一般难度也是逐渐增加的,第一道题一般是普通的通过两个for循环可以解决的,遇到比较多的是对串的操作,或者一些其他形式的题最终也需要转化为串来解决,比如两个大数相加。第二道题一般是数据结构的,树结构或者链表,树结构我觉得会基本的深搜和宽搜其他的发挥就好,因为我准备时间不是很多,所...

2019-02-26 20:31:00 752

原创 计算两个URL的相似度 编辑距离和docsim

在教育领域,追踪学习者的学习行为活动是分析学习者学习的一种有效的处理方式,这里处理一批url,通过处理URL形成相似度矩阵,再进一步进行聚类,及以后的相关处理。计算两个文本间(这里的文本指两个url)的相似度有多种方法,在NLP领域一版处理文本文件相似度,常用docsim/doc2vec/LSH比较两个文档之间的相似度,通过jieba分词然后使用上面的相关算法计算某一句话或者某一段话在文本中和它...

2018-12-11 10:05:12 1300

转载 面试问答题总结

TCP/IP协议和http协议的区别:TPC/IP协议是传输层协议,主要解决数据如何在网络中传输,而HTTP是应用层协议,主要解决如何包装数据。关于TCP/IP和HTTP协议的关系,网络有一段比较容易理解的介绍:“我们在传输数据时,可以只使用(传输层)TCP/IP协议,但是那样的话,如果没有应用层,便无法识别数据内容,如果想要使传输的数据有意义,则必须使用到应用层协议,应用层协议有很多,比如HT...

2018-12-06 10:44:02 129

转载 Mysql详解(一)Mysql中的索引

Mysql中的索引索引简介索引用于快速找出在某个列中有一特定值的行,不使用索引,MySQL必须从第一条记录开始读完整个表,直到找出相关的行,表越大,查询数据所花费的时间就越多,如果表中查询的列有一个索引,MySQL能够快速到达一个位置去搜索数据文件,而不必查看所有数据,那么将会节省很大一部分时间。例如:有一张person表,其中有2W条记录,记录着2W个人的信息。有一个Phone的字段记录每...

2018-12-05 17:58:08 119

原创 面试常见算法题

两个大数相加public class Main { public static void main(String[] args) { String str1="125567673456"; String str2="32434564"; String result = MaxNumberAdd(str1,str2); Sys...

2018-12-05 16:11:04 126

原创 T-sne 详解和代码

1.T-SNE的背景及介绍:任何事物产生的背景大多来自于现实的需求和现状的不满足:一:高维数据的可视化是许多不同领域的重要问题,例如与乳腺癌相关的细胞核由约30个变量描述。二:过去几十年中用于可视化高维数据的技术中很多非降维技术例如基于像素的技 术等仅提供了两个以上数据维度的工具,并将数据的解释留给人类观察者。降维方法将高维数据集转换为可以在散点图中显示的二维或三维数据。降维的目的在于在低维...

2018-11-16 09:49:42 5757 2

原创 pandas 处理数据一(抽取特定URL,正则匹配)

主要是想查找第一个url文件中的url在第二个文件中url中有多少个和它匹配。第一个文件截图(共23个特征数据):第二个文件截图,共6万多URL数据:结果截图:import pandas as pdimport numpy as npdf = pd.read_csv('cluster_all.csv')#一次性删除指定列x=[0,2]df.drop(df.columns[x...

2018-11-15 17:00:29 4035

转载 sql学习顺序指导(转)

转载链接:https://www.zhihu.com/question/19552975/answer/138930758一、基础理论篇目的:1.了解建立数据库的意义,为什么不能用excel而需要用数据库?以及有哪些方面的应用?2.数据库系统在整个网站中处于一个什么位置?在数据后台如何调用数据库的数据?3.数据库的应用范围?什么时候才不得不使用数据库?什么时候数据库也不灵了?(大概10万条...

2018-11-08 14:51:35 294

原创 Linux常见操作命令

1.远程链接数据库:mysql -pxx -hxx -uxx -pxx

2018-11-08 14:39:23 94

原创 检验数据是否符合正太分布

import numpy as npimport matplotlib.pyplot as pltimport scipy.stats as statsimport pandas as pd # additional packagesfrom statsmodels.stats.diagnostic import lillifors def check_normality(): ...

2018-11-02 10:31:36 1297

原创 python与mysql交互详解二

主要实现从mysql数据库中取出想要的数据进行平均值计算,然后将取出的数据按特定字段分组后重新插入数据库中。复杂的问题可以先从简单点一步一步实现,拆解完成。import pymysqlfrom pymysql import *import pandas as pddef select_data(sql, dict_data=True, host='xx', ...

2018-11-01 17:56:17 193

原创 xshell远程链接linux详解

第一步:安装xshell;第二步:查询xshell要链接的服务器地址,或者自己的另一台ubuntu电脑;2.1:ubuntu查看本地ip:①下载net-tools: sudo apt-get install net-tools②查询ip: ifconfig③找到wl(wlan分配给电脑的地址) inet之后的就是ip地址,inet6后面的是ipv6的地址。第三步:xshell新...

2018-10-26 12:53:24 3291

原创 python和mysql交互详解---- (pandas)读csv文件,executemny批量写入db中

主要用到pandas从csv文件中抓数据,pandas抓出的数据是dataframe格式的,而且有的可能是Nan,抓出df格式的数据需要再处理,才能批处理的写入数据库中,executemany批出的格式不能是df,这里处理成listimport pymysqlimport codecsimport pandas as pd# 打开数据库连接def get_conn(): conn...

2018-10-11 17:32:01 909

原创 Pandas 笔记(一)Pamdas简介和常用功能

一、常用功能包导入:一般我们需要做如下导入,numpy和pandas一般需要联合使用,并且最好导入的顺序是pandas先导入,不然有时候会报错(为啥报错还有待研究):import pandas as pdinport numpy as np数据导入:pd.read_csv(filename):从CSV文件导入数据pd.read_table(filename):从限定分隔符的文本文件...

2018-09-28 16:07:19 1360

原创 Python ----基础(1)

1: 执行过程: python 是一门先编译后解释的语言.先编译成pyc 字节码文件,然后在逐行解释pyc文件成一门语言.在编译时考虑是否有import 有的话,需要考虑持久化.有些文件需要频繁改动,所以不需要持久化.当然也可以通过 python -m py_compile test.py 手动持久化.2: 注释:单行注释 #    多行注释 '''  '''  或者"""   """  ...

2018-09-26 14:53:56 107

原创 青蛙跳台阶问题详解

问题背景:一只青蛙一次可以跳上1级台阶,也可以跳上2级。求该青蛙跳上一个n级的台阶总共有多少种跳法。问题解决思路思路:首先考虑n等于0、1、2时的特殊情况,f(0) = 0 f(1) = 1 f(2) = 2其次,当n=3时,青蛙的第一跳有两种情况:跳1级台阶或者跳两级台阶假如跳一级,那么 剩下的两级台阶就是f(2);假如跳两级,那么剩下的一级台阶就是f(1),因此f(3)=f(2)+...

2018-09-20 13:57:08 231

原创 Ubuntu 装软件的一种方式

一.下载软件的.deb文件二.执行sudo dpkg -i xxxx.deb 安装①安装sublimText :下载下载sublime-text的安装包,下载链接为:https://pan.baidu.com/s/1i5LqctB安装先进入下载到的安装包所在目录再运行如下命令进行安装sudo dpkg -i sublime-text_build-3126_amd64.deb...

2018-09-19 17:05:01 132

原创 求内存中正整数在内存中存储时1的个数

题目描述 输入一个int型的正整数,计算出该int型数据在内存中存储时1的个数。 输入描述: 输入一个整数(int类型) 输出描述: 这个数转换成2进制后,输出1的个数 示例: 输入5 输出2方法一: 此方法比较蠢比较暴力,是自己原生思想。只为了解题通过很多细都没有在意。思路是将十进制转化二进制中,统计数组中1的个数。import java.util.Scanner...

2018-09-07 11:44:35 211

原创 java 实现字典序排序

题目描述 给定n个字符串,请对n个字符串按照字典序排列。 输入描述: 输入第一行为一个正整数n(1≤n≤1000),下面n行为n个字符串(字符串长度≤100),字符串中只含有大小写字母。 输出描述: 数据输出n行,输出结果为按照字典序排列的字符串。 示例1 输入 9 cap to cat card two too up boat boot 输出 boat b...

2018-09-05 14:50:50 17569

原创 求一个数的所有质因子(既是质数又是因子)

package findAge;import java.util.*;public class Main{ public static void main (String[] args){ Scanner sc = new Scanner(System.in); long ulDataInput = sc.nextLong(); Stri...

2018-09-03 16:54:33 5269

原创 字符串分割

题目描述 •连续输入字符串,请按长度为8拆分每个字符串后输出到新的字符串数组; •长度不是8整数倍的字符串请在后面补数字0,空字符串不处理。 输入描述: 连续输入字符串(输入2次,每个字符串长度小于100) 输出描述: 输出到长度为8的新字符串数组import java.util.*;import java.util.Scanner;public class Main...

2018-09-03 14:34:14 133

原创 静态分析简介

一:程序静态分析简介(Program Static Analysis): 程序静态分析简介(Program Static Analysis)是指在不运行代码的方式下,通过词法分析、语法分析、控制流、数据流分析等技术对程序代码进行扫描,验证代码是否满足规范性、安全性、可靠性、可维护性等指标的一种代码分析技术。目前静态分析技术向模拟执行的技术发展以能够发现更多传统意义上动态测试才能发现的缺...

2018-08-16 16:51:53 7103 1

原创 JFace

JFace是java的脸吗?哈哈。 JFace框架是通过继承来创建窗口程序,更符合面向对象的要求。JFace是SWT的框架。既然了解了 JFace与SWT的关系,那么Jace框架究竟有什么好处呢?以下列举了 JFace 对SWT改进的几个方面。 应用程序窗口:通常一个软件都要有一个主窗口,主窗口一般有菜单栏、工具栏和 状态栏,有了这样的窗口,就可以轻松地给主窗口添加各种控件,而不用再编...

2018-07-27 15:04:39 2703

原创 SWT

SWT是一个GUI的开发工具包,SWT将GUI的基本组成成分分为了显示界面(Display)命令界面(Shell)和窗口部件(widgets). swt.widgets包下面有Button,Text,Label等最常用的组件。其中自重要的组件是shell和Composite.Shell相当于应用程序的主窗口,Composite是容纳组件的容器。 swt.layout主要包含一些页面布局方式。 ...

2018-07-25 16:02:28 335

原创 HashMap总结

一.Map介绍: map是一个接口,代表由关键字以及他们的值组成的一些项的集合。关键字必须是唯一的,值可以不唯一。在SortedMap接口中,映射中的关键字保持逻辑上的有序性。SortedMap接口的一种实现是TreeMap类。 二.HashMap总结: a) HashMap实际上是一个“链表散列”的数据结构,即数组和链表的结合体。 b) HashMap的底层结构是一个数组,数组...

2018-07-20 15:23:41 159

原创 Java实现链表操作

前些日子面试,面试官问我Java实现链表逆置,因为我写的用了两个变量操作,被怼的很难受。决定将Java链表好好总结一下。一:链表介绍:为了避免插入和删除的线性开销,就需要保证表可以不连续存储,否则表的每部分可能都需要整体移动。Java语言中包含一些普通数据结构的实现,这部分叫做Collections API. Collections API位于java.util包中,collecti...

2018-07-09 11:11:29 219

转载 面试用到的 常见SQL语句

1.有一张shop表,有三个字段article,author,price,选出每个author的price的最高的纪录。(要包含所有字段) 解法一:使用相关子查询:SELECT article,author,priceFROM shop s1WHERE price = (SELECT MAX(s2.price)FROM shop s2 WHERE s1.author=s2.autho...

2018-07-08 19:54:28 7387 1

翻译 Java面试题总结

Java面试总结对自己找工作以来遇到的Java面试题做一个总结。1 举例说明几种常见的异常,并说明分析某些异常时toString(),getMessage(),printStackTrace()的异同点。java中异常分为运行时异常和非运行时异常两种。常见异常如下: (1)NullPointerException: 空指针异常,属于运行时异常。 (2)...

2018-07-06 21:40:06 140

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除