自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(35)
  • 问答 (2)
  • 收藏
  • 关注

原创 python爬虫——scrapy+selenium爬取新浪微博及评论

本文主要对爬取过程中所用到的知识做简单总结,最后有项目链接。一、项目简介本项目利用python的scrapy框架+selenium模拟登陆微博来爬取带有关键字的微博及微博下面的评论(1 、2级评论)。当时自己比较关注“小凤雅事件”,而微博又是舆论的战场,就想爬取“小凤雅事件”的相关微博以及评论,看看大家的关注点在哪里,于是就行动起来了。下面是对主要技术的介绍。二、scrapy介...

2019-01-21 21:24:47 7380 2

原创 剑指offer66道练习题汇总——python版(持续更新)

目录1.二维数组的查找(数组)2.替换空格(字符串)3.从尾到头打印链表(链表)4.重建二叉树(树)5.二叉树镜像(树)6.用两个栈实现队列(栈和队列)7.斐波那契数列(递归和循环)8.旋转数组的最小数字(查找和排序)9.跳台阶(递归与循环)10.变态跳台阶(递归和循环)11.单、双链表反转12.矩形覆盖(递归和循环)13.链表中倒数第k个节点...

2018-11-26 21:24:56 1097

转载 算法——编辑距离

思路见:https://blog.csdn.net/zhonglixianyun/article/details/82150621if __name__=='__main__': str1='ALGORITHM' str2='ALTRUISTIC' m=len(str1) n=len(str2) d=[[0 for j in range(n+1)] f...

2019-07-15 12:50:40 244

原创 secureCRT sz rz

rz上传文件后,解压总出错1.rz -be 以二进制形式上传2.去掉Uploads files as ASCII选项

2019-07-10 16:17:07 271

原创 python学习———深拷贝与浅拷贝

import copyif __name__=='__main__': a = [1, 2, 3, 4, ['a', 'b', 'c']] b = a # 赋值 c = copy.copy(a) # 浅拷贝 d = copy.deepcopy(a) # 深拷贝 a[4][1]=9 a[1]=5 print a,id(a),id(a[...

2019-07-09 23:21:38 245

原创 python算法——堆排序

def build_min_heap(arr): for i in range(int(len(arr)/2),-1,-1): min_heapify(arr,i)def min_heapify(arr,i): c1=2*i+1 c2=2*i+2 min=i n=len(arr) if c1<n and arr[c1]&...

2019-07-09 13:50:09 177

原创 算法——m*n方格从左上角到右下角走法

m*n的方格,从左上角开始出发,只能向右走或向下走,一共有多少种走法?(1)动态规划import numpy as npdef left_to_right(m,n): d=np.zeros(dtype=int,shape=(m,n)) d[0][0]=0 for i in range(1,m): d[i][0]=1 for j in ra...

2019-07-04 11:01:44 12068 6

原创 python学习——map()与reduce()函数

reduce函数与map函数有不一样地方,map操作是并行操作,reduce函数是多个参数累计操作。map()的使用方法形如map(f(x),Itera),它有两个参数,第一个参数为某个函数,第二个为可迭代对象,返回list。reduce()的使用方法形如reduce(function, iterable[, initializer]),它的形式和map()函数一样。不过参数f(x)必须有...

2019-06-18 17:09:55 237

原创 python——寻找最长公共前缀|寻找最长公共子串

1.寻找最长公共前缀(1)扫描法def subString(strs): result=strs[0] for i in range(1,len(strs)): while (strs[i].startswith(result)==False): result=result[0:len(result)-1] ...

2019-06-17 20:37:02 1209 1

原创 python学习之sort()与sorted()方法

sorted() 函数对所有可迭代的对象进行排序操作sort() 函数用于对原列表进行排序,如果指定参数,则使用比较函数指定的比较函数sort()与sorted()的不同在于,sort是在原位重新排列列表,而sorted()是产生一个新的列表。sort 是应用在 list 上的方法,sorted 可以对所有可迭代的对象进行排序操作。a.sort()sorted(a)...

2019-06-15 23:06:58 168

原创 python学习之requests库——response.text与response.content的区别

response.text返回的是unicode数据,是基于对原始数据的编码方式进行猜测而解码的,有时用text会出现中文乱码的情况。response.content返回bytes型数据,也就是二进制数据。如果想要获取文本型,可用text;如果想获得图片,用content...

2019-04-23 16:03:34 1343

原创 python实现快速排序

# 快速排序时间复杂度平均为O(nlogn),最差为O(n*2),注意递归跳出条件def quick_sort(arr,start,end): if start >= end:#注意递归跳出条件 return key=arr[start] i=start j=end while i!=j: while arr[j]&...

2018-12-16 16:03:00 194

原创 python非递归实现二分查找

# -*- coding:utf-8 -*-def binary_search(num,arr): n=len(arr) left=0 right=n-1 if n==0: return '数组为空!' while left&lt;=right: mid=(left+right)//2 if arr[mid...

2018-12-15 21:58:14 210

转载 ubuntu系统根目录空间不足

非常有用的清理垃圾命令:           #sudo apt-get autoclean           #sudo apt-get clean           #sudo apt-get autoremove

2018-12-10 22:31:42 4003

原创 linux命令tar后参数

z 是因为你解压gz的文件 x是从文档中释放 v是报告详细信息 f是使用tar必选的放最后不一定要是zxvf 这是参数 给你一些其他的参数 ^.^c 创建新的档案文件。如果用户想备份一个目录或是一些文件,就要选择这个选项。r 把要存档的文件追加到档案文件的未尾。例如用户已经作好备份文件,又发现还有一个目录或是一些文件忘记备份了,这时可以使用该选项,将忘记的目录或文件追加到备份文件中。t 列...

2018-12-10 22:00:38 747

转载 python学习——网络爬虫

1、BeautifulSoup库与re正则表达式模块BeautifulSoup是一个可以从HTML或XML文件中提取数据的Python库;而re正则表达式模块进行各类正则表达式处理。2、BeautifulSoup对象类型Tag——HTML和XML文档中的标签Navigable String——Tag当中的字符串BeautifulSoup——BeautifulSoup对象表示的是...

2018-12-10 21:58:37 281 1

原创 SAS学习——选取数据集的部分变量

实现目标:从sashelp逻辑库中的shoes数据集中选取部分变量到新的数据集shoes数据集所包含的数据(部分)如下图所示:1、在SET语句中使用数据集选项KEEP=和DROP=选项KEEP=表示只读取变量列表中的变量,而选项KEEP=表示读取除变量列表中列出的变量之外的其他所有变量。data work.shoes_part1; set sashelp.shoes(keep=produc...

2018-07-01 14:49:38 17363 1

原创 SAS学习——通过DATA步读取外部文本文件中的数据2

1、SAS在为所有变量读到数据之前就遇到了输入行的末尾的情况进行处理。使用INFILE语句的选项,指定missover、truncover或stopover选项,从而改变sas默认行为。默认情况下选项为flowover,input语句会读入下一条记录到输入缓冲区中,给当前PDV中未赋值的变量赋值。2、...

2018-06-21 11:20:13 3770

原创 SAS学习——通过DATA步读取外部文本文件中的数据1

1、基本形式如下:data 数据集名称; infile 数据文件位置; input 变量列表;run;data语句指定数据集名称;infile语句指定原始数据的位置和名称。原始数据文件可以是在filename语句中定义的文件引用形式或操作系统下的文件路径。input语句用于指定SAS读取数据的方式。2、SAS三种基本输入方式列表输入用于读取原始数据记录中每个字段由至少一个分隔...

2018-06-20 17:53:21 10318 1

原创 SAS学习——系统选项

1、查看系统选项带value选项的options过程proc options option=obs value;run;将getoption函数作为%sysfunc宏函数的参数%put %sysfunc(getoption(obs));通过“SAS系统选项”窗口查看选择菜单“工具”-&gt;“选项”-&gt;“系统”,然后找到想要更改的系统选项进行设置。2、系统选项与数据集选项用一个简单的例子...

2018-06-20 15:58:36 3098

转载 SAS学习——SAS数据集

SAS数据集可分为SAS数据文件和SAS视图。SAS数据文件包含数据和描述信息,成员类型是DATA;而SAS视图不包含数据值,是虚数据集,成员类型是VIEW。1、SAS数据集的逻辑组件包括:描述信息、数据值、索引和扩展属性。用CONTENTS过程打印数据集的属性信息。用PRINT过程打印数据集信息。2、变量属性介绍变量名      最大长度32字节,必须以字母或下划线开始,可以是字母、数字和下划线...

2018-06-20 15:40:58 5837

原创 SAS学习——SAS逻辑库

1、概念SAS逻辑库是一个或多个SAS文件的集合,用于组织、查找和管理SAS文件。SAS逻辑库管理的SAS文件包括SAS数据集、SAS目录、已编译的SAS程序,以及多维数据库文件等。2、永久逻辑库与临时逻辑库SAS逻辑库通常为永久逻辑库。永久逻辑库:存储在计算机固定存储介质上,当SAS会话终止时不会被删除。使用文件时,通常用逻辑库引用名.文件名的形式引用。临时逻辑库:在SAS会话或作业运行过程中存...

2018-06-20 11:24:57 7037

原创 SAS学习——Base SAS基础

1、SAS软件启动窗口模式      windows环境下双击.exe文件启动。非交互模式    在windows环境下的示例:C:\&gt;"C:\Program Files\SASHome\SASFoundation\9.4\sas.exe" -sysin C:\sas\code\test.sas –log C:\sas\logs\test.log -print C:\sas\lst...

2018-06-20 11:00:53 3210

原创 python学习——Anaconda与PyCharm

一、Anaconda与Pycharm简述Anaconda是一个用于科学计算的Python发行版,核心功能是包管理和环境管理,可以很方便地解决多版本python并存、切换以及各种第三方包安装问题。PyCharm是一种Python IDE,为用户提供IDE开发环境,带有一整套可以帮助用户在使用Python语言开发时提高其效率的工具,比如调试、语法高亮、Project管理、代码跳转、智能提示、自动完成、...

2018-05-31 16:06:26 4976

原创 大数据学习7-Linux常用命令行

1.修改root密码sudo passwd#重设密码,设置成功su root#输入新密码即可进入rootexit #退出root到当前用户2.修改文件名sudo mv apache-hive-1.2.2-bin hive 3.修改权限#改变拥有者和群组 chown mail:mail server.log#改变文件拥有者和群组 chown root: serv...

2018-03-20 16:00:31 235

转载 大数据学习6——Hive常用的HiveQL操作

1)Hive基本数据类型首先,我们简单叙述一下HiveQL的基本数据类型。Hive支持基本数据类型和复杂类型, 基本数据类型主要有数值类型(INT、FLOAT、DOUBLE ) 、布尔型和字符串, 复杂类型有三种:ARRAY、MAP 和 STRUCT。a.基本数据类型TINYINT: 1个字节SMALLINT: 2个字节INT: 4个字节BIGINT: 8个字节BOOLEAN: TRUE/FAL...

2018-03-20 15:54:28 1760

原创 大数据学习5——HDFS常用的文件操作命令

基本形式:hadoop fs -cmd &lt; args &gt;1.创建hdfs文件夹(-mkdir)hadoop fs -mkdir userhadoop fs -mkdir user/hadoophadoop fs -mkdir user/hadoop/input注意,目录只能一级一级得建,如果不存在父目录,就无法创建。 2.将本地文件上传到hdfs上(-p...

2018-03-20 15:48:12 508

原创 python学习——将循环内容在一行输出

例子是输出九九乘法表如果按照如下程序写:# 输出九九乘法表 for i in range(10): for j in range(1,i+1): print("{}*{}={:2} ".format(j,i,i*j)) print('')就会出现下面的输出:这并不是我们想要的形式。print()会自动换行。python3中end属性...

2017-12-11 22:31:47 34002 3

原创 大数据学习4——伪分布式hadoop的配置和启动

一、伪分布式Hadoop的配置        Hadoop 的配置文件位于 /usr/local/hadoop/etc/hadoop/ 中,伪分布式需要修改2个配置文件 core-site.xml 和 hdfs-site.xml 。如果需要从伪分布式模式切换回非分布式模式,需要删除 core-site.xml 中的配置项。        1.修改core-site.xml文件     ...

2017-12-06 21:48:58 967

转载 大数据学习3——分布式文件系统HDFS

一、HDFS简介        HDFS的全称是Hadoop Distributed File System,分布式文件系统。        1.HDFS的文件系统结构:        2.HDFS实现目标:兼容廉价的硬件设备、实现流数据的读写、支持大数据集、支持简单的文件模型、强大的跨平台兼容性        3.HDFS的局限性:不适合低延时数据访问、无法高效储存大量小文件

2017-12-01 11:36:39 681

转载 大数据学习2——大数据处理架构Hadoop概述

一、Hadoop简介(转自百度百科)        Hadoop是Apache基金会所开发的分布式系统基础架构。        用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。        Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特

2017-11-30 16:21:14 491

转载 大数据学习1——大数据概述

一、三次信息化浪潮的标志                第一次:PC        第二次:互联网               第三次:大数据、云计算、物联网二、大数据关键技术       大数据特点:4V,数据量大(Volume)、数据类型多(Variety)、处理速度快(Velocity)、价值密度低(Value)。       大数据的关键技术包括:数

2017-11-30 15:37:38 15479

转载 递归-汉诺塔

我们对柱子编号为a,b,c,将所有圆盘从a移到c。规定,在小圆盘上不能放大圆盘,在三根柱子之间一次只能移动一个圆盘。如果a只有一个圆盘,可以直接移动到c;如果a有N个圆盘,可以看成a有1个圆盘(底盘) + (N-1)个圆盘,首先需要把 (N-1) 个圆盘移动到 b,然后,将 a的最后一个圆盘移动到c,再将b的(N-1)个圆盘移动到c。def move(n

2016-11-08 20:39:39 359

原创 java读取word中的表格并存入到mysql数据库中实例

将D://word_export.doc(word2003)文件中表格数据读取出来并存入到数据库中。表格数据如下图所示: 20064001 刘景玉 1987-01-25 男 河南商丘 20064002 李会 1986-05-30 ...

2016-06-04 11:52:55 11585 1

原创 程序与进程的区别

刚开始学习计算机操作系统,对程序和进程的概念有所模糊,更别说他们的区别,我通过查阅资料和询问进行了一下总结,希望对大家有所帮助,如果有错误,也希望大家批评指正。1.动态性:程序是静态的,是一组有序指令的集合;而进程是动态的,是程序在数据集上的一次执行,“它由创建而产生,由调度而执行,由撤销而消亡”,有一定的生命期。2.并发性:程序没有并发性,程序(没有建立PCB)是不能并发执行的;

2016-05-09 20:53:56 598

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除