自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(61)
  • 收藏
  • 关注

转载 Hadoop组件----HDFS架构及原理

学习博客:https://blog.csdn.net/kezhong_wxl/article/details/76573901官方文档:http://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-hdfs/HdfsDesign.html一、介绍DFS(Distributed File System)分布...

2018-08-03 20:53:00 172

转载 hadoop---运行自带的MapReduce WordCount程序

MapReduce入门程序:WordCounthadoop的share目录下创建一个HDFS数据目录,用于保存mapreduce的输入文件创建一个目录,用于保存mapreduce的任务输出文件创建一个单词文件,并上传到HDFS上面上传该文件到HDFS上在文件所在目录下,运行wordcount程序查...

2018-08-03 20:52:00 179

转载 Tomcat启动时自动运行某程序

项目需要和tmall实现长连接,接收tmall推送的Order消息,然后对消息进行逻辑处理。目前写了一个servlet,实现了permit的验证,然后对tmall进行长连接操作,启动后,只要tomcat一直运行着,长连接就不会断掉。现在的需求是tomcat启动后我这个servlet自己就运行起来,不用我自己再去访问一下配置的servlet路径。资料:http://www.cn...

2018-07-18 12:01:00 195

转载 sql语句---存在即更新,否则insert

项目中遇到的需求:处理tmall推送来的order信息时,要实时更新table里面的信息,这种情况下会涉及到:  若是订单生成的消息,那么推送来的id在table里面是没有的,就应该执行insert操作  若不是订单生成的消息,则执行更新如果记录存在就更新,不存在就插入。sql如下:IF EXISTS ( SELECT 1 FROM ...

2018-07-17 19:26:00 170

转载 java long型数字和时间date的转换

项目中从tmall推来的时间是一串数字,如下需要进行转换然后存入数据库时间格式转换类如下:SimpleDateUtilpackage cn.tmall.Intermediate_system.utils;import org.apache.commons.lang.StringUtils;import java.sql.Date;import ja...

2018-07-16 19:32:00 216

转载 IDEA moven导入本地jar

项目需要用到从tb下载的的sdk,在加入到tomcat项目里头的时候,需要在pom文件里面配置依赖第一步:下载好sdk第二步:moven生成本地仓库文件cmd命令窗口中,进入到Jar存放的目录下运行命令:mvn install:install-file -Dfile=taobao-sdk-java-auto_1531705364550-20180...

2018-07-16 15:51:00 115

转载 Centos7 安装hadoop2.7.3和jdk1.8

下载好hadoop和jdk软件包,传到虚拟机上第一步:安装jdk并配置环境变量解压 tar -xvf配置环境变量vim /etc/profile#set java environmentexport JAVA_HOME=/home/java/jdk1.8.0_171export JRE_HOME=/home/javaa/jdk1.8.0...

2018-07-15 19:19:00 129

转载 查看centos上安装了哪些软件

一、查看centos上安装了多少个软件二、查看安装了的软件包acl-2.2.51-12.el7.x86_64aic94xx-firmware-30-6.el7.noarchalsa-firmware-1.0.28-2.el7.noarchalsa-lib-1.1.3-3.el7.x86_64alsa-tools-firmware-1.1.0-...

2018-07-11 22:13:00 433

转载 将本地jar包导入moven

测试tmall接口的时候,,刚开始只是写的方法,所以之前直接是将下载好的sdk导入本地的jdk/lib下的,然后在Idea里加入进去ctrl+shift+alt+s单独写一个class在main方法里面是可以走通的,请求如下:response的结果如下:但是放在tomcat下,通过servlet来测试调用,启动tomcat,报错找不...

2018-07-11 20:58:00 81

转载 爬虫---概念理解

整理之前的学习笔记,看的某视频的记录爬虫:自己取抓取互联网上的信息的程序。爬虫价值:爬取数据爬虫的架构爬虫调度段:启动爬虫,监视爬虫URL管理器:网页下载器(urllib)网页解析器(BeautifulSoup)运行的流程URL管理器:管理待抓取URL集合和已经抓取URL集合---防止重复抓取/循环抓取...

2018-07-10 20:28:00 128

转载 数据库--数据库事务

事务是用户定义的一个数据库操作序列,这些操作要么全做,要么全不做,是一个不可以分割的工作单位。定义事务的语句    begin transaction;    commit;----提交事务的所有操作    rollback;----回滚:在事务云彩的过程中发生了某种故障,事务不能继续执行,系统将事务中对数据的所有已完成的操作全部撤销,回滚到事务开始时的状态。事...

2018-07-04 21:20:00 100

转载 数据库---触发器trigger

触发器是用户定义在关系表上的一类由事件驱动的特殊过程。触发器:事件-条件-动作规则。当特定的系统事件(如对一个表的增删改操作,事务的结束等)发生时,对规则的条件进行检查,如果条件成立则执行规则中的动作,否则不执行该动作。create trigger <触发器名>{before|after}<触发事件>on<表名>referenci...

2018-07-03 19:49:00 114

转载 数据库---授权:grant && revoke

数据库管理员可以授予用户对数据的操作权限GRANK:授予权限GRANK <权限>[,<权限>...]ON<对象类型><对象名>[,<对象类型><对象名>...]TO <用户>[,<用户>][WITH GRANK OPTION]; -----获得某种权限的...

2018-07-02 19:19:00 165

转载 数据分析--pandas DataFrame

pandas DataFrame是一个表格类型的数据,含有一组有序的列,每列可以是不同的值类型(数值,字符串,布尔值)。DataFrame即有行索引,也有列索引,可以看作由Series组成的字典(公用同一个索引)。DataFrame是以一个或者多个二维块存放的(而不是列表,字典或别的一维数据结构)构建DataFrame传入一个等长列表或Numpy数组组成的字典Da...

2018-07-01 21:41:00 100

转载 数据分析----pandas Series

    series是一类类似于一维数组的对象,由一组数据以及一组与之相关的数据标签组组成如下图:索引在左边,值在右边。没有指定索引就会自动创建一个0到N-1的整数型索引可以通过series的index和values属性获取数组索引对象和数组表示形式自定义索引可以通过索引选取Series里的值可以将python...

2018-07-01 20:44:00 65

转载 爬虫-处理html的转义字符

爬到的书店的名称里面有如下情况:这是HTML转义字符的原因导致的,如下:解决方法方法一-----------------------采用正则---如下,有问题,这样变成一个一个字符了,还要进行拼接处理方法二--------------------使用html模块里面的方法-html.unescape()欧克转载于:https://www....

2018-06-28 15:39:00 466

转载 order by后面加多个字段的情况

处理爬虫程序的时候,需要对书籍信息的出版日期,爬取优先级同时进行排序----即order by后面加两个字段。order by后面加两个字段,用英文逗号隔开若出版日期pubdate升序,优先级降序order by pubdate,priority DESC若出版日期,优先级都降序,需要这样写order by priority DESC,pubdate DESC转载...

2018-06-28 15:29:00 487

转载 bat----服务器重启后爬虫自动运行

项目中维护爬虫由于服务器会不定期的给重启一下,这样每次都要登录服务器去手动在schedule下爬虫很麻烦,所以想办法在服务器重启后自己去调取起爬虫的程序。首先,爬虫是用scrapyd管理调度的,所以服务器启动后,先执行scrapyd.exe然后,再调度spider第一步:start_scrapyd.bat第二步:schedule.bat第三步:...

2018-06-27 22:58:00 220

转载 pymmsql安装报错及处理

数据库迁移到了sql server上面,忘记了,还在用pymsql写了再搞,后来才反应过来。。。。笨关于pymmsql模块的安装正常思维第一在pycharm里面安装进入settings里面,点击+搜索要安装的模块,点击下面的install按钮安装这个时候问题就来了首先来的是pip版本不够,本人当时的是9.0.1的,所以立马用...

2018-05-31 15:34:00 202

转载 python 正则提取img标签和src

需要用python写个脚本出来提取img标签和src的内容,在存数据的时候,搞藤了很久,原因是把list类型的数据直接放入sql语句里面了,一直报下面这个错误脑子抽了,以为是src里面转义字符的问题,就一直往这个方向整后面才发现,是直接把list类型放sql format里面了,然后将[]一起转成了字符串 如 '[' http://www.baidu.com ']'...

2018-05-31 15:17:00 2573

转载 HTML页面加载和layer层冲突问题

关于HTML页面加载完成后执行,有以下几种方式:第一种 用js加载:window.onload第二种 用Jquery加载 $(document).ready()第二种方法也可以简写为下面的方式:这样,当html页面加载成功后执行相应的动作。在写项目的时候,我需要在页面加载完成后点击按钮弹出layer,这个动作却和上面两个方法写的h...

2018-05-29 15:47:00 217

转载 转载 有用的WSDL资源

转载自:https://blog.csdn.net/wugang8023/article/details/38121325天气预报Web Service,数据来源于中国气象局EndpointDiscoWSDLIP地址来源搜索Web Service(是目前最完整的IP地址数据)EndpointDiscoWSDL随机英文、数字和中文简体字Web Servi...

2018-04-26 16:38:00 93

转载 web service----查看股票走势

接前面两个记录项目需要用到web service相关技术,调研过程中的实例学习记录。第一步:需要有股票服务的网址。。。网上自己百度http://www.webxml.com.cn/webservices/ChinaStockSmallImageWS.asmx第二步:在刚才的网址后面加?wsdl第三部:找到资源后,开始建立项目n...

2018-04-26 16:35:00 171

转载 web service 入门实例

创建服务端new 一个webservice 项目在src/***.***.server包下创建一个类编译测试发布结果有如下结果表示发布成功创建客户端创建一个webservice 项目,project名****_client在命令提示窗口生成客户端‘刷新,检查生成的类...

2018-04-25 20:44:00 54

转载 ideal 创建web service项目

测试出现这个问题是因为没有在web.xml里面映射路径2017 idea 创建的项目默认没有生成web.xmlwenjian,自己添加配置web.xml里面的内容<?xml version="...

2018-04-25 20:33:00 169

转载 win10上配置hadoop环境

直接将hadoop解压在某盘上配置hadoop的HADOOP_HOME 和 PATH两个环境变量HADOOP_HOMEPATH测试cmd命令行输入hadoopJAVA_HOME没有设置对在hadoop-evn.cmd文件里面设置JAVA_HOME路径这是之前添加的JAVA_HOME的路径...

2018-04-19 21:41:00 94

转载 hadoop-----slaves集中管理与SSH免密登录

slaves集中管理在master上对多个slaves进行集中管理的时候,需要修改下面的配置文件在该文件里添加所有的slaves添加信息之后就可以通过一条命令启动或关闭所有nodestart-dfs.sh 启动stop-dfs.sh 关闭这里我们会注意到,当我们敲入这两个条命令的时候,所让我们输入很多密码的...

2018-04-18 10:10:00 103

转载 关系的完整性

实体完整性  规则:  若属性A(一个或一组)是基本关系R的主属性,则A不能取空值(null)  规则说明:  实体具有某种唯一性标识关系模型中以主码作为唯一标识主码属性不能取空,若取空,则说明存在某个不可标识的实体,即存在不可区分的实体create table中用了primary key定义了关系主码,每当用户程序对基本表插入一条记录或对主码进行更新...

2018-04-14 22:39:00 126

转载 关系数据库-----SQL标准语言

关系数据库三级模式结构  外模式:视图,基本表导出的表,数据库中只存放视图的定义而不存放视图对应的数据。  模式:基本表  内模式:存储文件数据定义操作对象创建删除修改模式create schemadrop schema表create tabledrop tablealter table...

2018-04-14 22:29:00 76

转载 mysql导入excel文件---打开文件失败

在mysql里面把表设计好后,导入数据,发现不能打开excel文件解决:要先把excel文件打开。。。。。导入的excel文件,里面的数字太长,在mysql里面显示为科学计数的形式。解决:将excel转成cvs格式重新导入转载于:https://www.cnblogs.com/taoHongFei/p...

2018-04-12 16:34:00 282

转载 scrapyd在window上的部署

上午胡乱的弄,没有做记录,导致下午删掉了东西过后scrapy发布不上去了,现在卸载了scrapyd,scrapyd-client重新安装安装scrapydscrapyd模块是专门用于部署scrapy项目的,可以部署和管理scrapy项目在scrapySpider虚拟环境下面安装scrapyd在e盘建一个文件夹,scrapydtest进入到该文件夹下面运...

2018-04-11 21:12:00 84

转载 anaconda创建虚拟环境

为了部署scrapyd项目,建立一个虚拟环境方便管理。查看anaconda的版本查看anaconda上面安装了哪些包创建好后,激活该虚拟环境对虚拟环境安装额外的包使用命令conda install -n your_env_name [package]即可安装package到your_env_n...

2018-04-11 19:54:00 78

转载 Scrapy----Settings文件

在Settings.py里面,提供了提取以key-value映射的配置值的的全局命名空间(namespace)。可以通过多种机制进行设置如何获取设定的值  命令行项目模块如何进行访问通过crawler转载于:https://www.cnblogs.com/taoHongFei/p/8724367.html...

2018-04-05 21:30:00 45

转载 Scrapy在PyCharm里面运行,调试

首先通过csrapy shell命令创建一个scrapy项目。scrapy startproject projectname会生成如下文件进入spider_405文件夹我们自己写的爬虫项目就放在spiders文件夹里面items.py是用来保存你爬取的数据的数据结构在scrapy.cfg同目录下新...

2018-04-05 12:31:00 92

转载 scrapy(一)

创建scrapy项目命令:scrapy startproject dirctory_name可以发现在tm_spider目录下创建了一个文件夹:spider_402,文件夹结构如下定义一个spiders爬虫class(类) ,该class是scrap.Spider的subclass(子类)。 在这个sipders class里面,要定...

2018-04-03 14:02:00 60

转载 爬虫系列---Scrapy框架学习

项目的需求需要爬虫某网的商品信息,自己通过Requests,BeautifulSoup等编写了一个spider,把抓取的数据存到数据库里面。跑起来的感觉速度有点慢,尤其是进入详情页面抓取信息的时候,小白入门,也不知道应该咋个整,反正就是跟着学嘛。网上的爬虫框架还是挺多的,现在打算学习spcrapy重新写。下面是记录官方文档的一些学习notes.scrapy的环...

2018-04-02 16:17:00 95

转载 Centos7 关机与重启

linux主要用于服务器领域,而在服务器上执行一项服务是永无止境的,一般情况不会关机。在linux系统下,很多进程是在后台执行的。在屏幕背后,可能有很多人同时在工作。如果直接按下电源的按钮,其他人的数据可能就此中断。若不正常关机,严重的话,可能会造成文件系统损坏,从而导致数据丢失。在关机之前,先看看有没有其他用户正在登录在系统上面的命令:who查看是否还有后台进程运...

2018-04-01 11:40:00 96

转载 Writing the Abstract

key questions we must answerwhat the study aboutwhat did you investigate? why?what did you do? methodswhat did you discover?what do you result mean? why are the important?Tense...

2018-03-31 21:02:00 100

转载 linux文件基本属性

在Linux中可以使用ll或者ls –l命令来显示一个文件的属性以及文件所属的用户和组在Linux中第一个字符代表这个文件是目录、文件或链接文件等等当为[d]则是目录 当为[-]则是文件;若是[l]则表示为链接文档(link file);若是[b]则表示为装置文件里面的可供储存的接口设备(可随机存取装置);若是[c]则表示为装置文件...

2018-03-30 15:00:00 67

转载 linux系统目录结构

ls \ 查看根目录文件bin:这个目录存放着最经常使用的命令boot:启动Linux时使用的一些核心文件,包括一些连接文件以及镜像文件dev:该目录下存放的是Linux的外部设备,在Linux中访问设备的方式和访问文件的方式是相同的etc:存放所有的系统管理所需要的配置文件和子目录home:用户的主目录,在Linux中,每个用户都有一个自己的目录,一般该目...

2018-03-30 14:51:00 57

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除