自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

u012680593的博客

sunshine,你好

  • 博客(33)
  • 收藏
  • 关注

原创 基于nodejs的爬虫实现

技术点nodejs cheerio(解析网页dom节点)以爬取知乎日报http://daily.zhihu.com/网站为例,实现了一个爬虫小程序。爬虫思路如下:以请求http://daily.zhihu.com/网站首页为入口 解析列表页数据,获取每篇文章的标题title、详情页url、图片img 根据2中详情页url请求详情页,解析得到详情页文章内容数据 保存数据到数据库中...

2018-10-23 23:50:12 782

原创 python 爬虫

爬虫之抓取糗事百科的段子(python3.5环境):1.下载页面2.解析(xpath方法)# -*-coding:utf-8 -*-import urllib.requestimport sysimport iofrom lxml import etreefrom urllib.parse import urljoinsys.stdout = io.TextIOWrappe

2016-12-22 19:31:40 533

原创 window7 python 安装 lxml

window7安装lxml1.pip install wheel2.查看当前python环境支持的安装包文件1.输入python2.import pip;print(pip.pep425tags.get_supported())3.显示支持版本4.xml官网下载对应版本安装包:http://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml

2016-12-22 16:25:17 404

原创 python编码问题——解决python3 UnicodeEncodeError: 'gbk' codec can't encode character '\xXX' in position XX

python实现爬虫遇到编码问题:error:UnicodeEncodeError: 'gbk' codec can't encode character '\xXX' in position XX解决办法:改变标准输出添加代码:sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='gb18030') #改变标准输出的默

2016-12-22 14:59:53 27146 4

原创 【网络】面试中遇到的网络相关问题

1.http和https的区别:HTTP:是互联网上应用最为广泛的一种网络协议,是一个客户端和服务器端请求和应答的标准(TCP),用于从WWW服务器传输超文本到本地浏览器的传输协议,它可以使浏览器更加高效,使网络传输减少。HTTPS:是以安全为目标的HTTP通道,简单讲是HTTP的安全版,即HTTP下加入SSL层,HTTPS的安全基础是SSL,因此加密的详细内容就需要SSL。HTTPS

2016-09-24 12:36:04 506

原创 【网络】从输入url到获取页面的完整过程

1.查询DNS(域名解析),获取域名对应的IP地址查询浏览器缓存(浏览器会缓存之前拿到的DNS 2-30分钟时间),如果没有找到,检查系统缓存,检查hosts文件,这个文件保存了一些以前访问过的网站的域名和IP的数据。它就像是一个本地的数据库。如果找到就可以直接获取目标主机的IP地址了。没有找到的话,需要检查路由器缓存,路由器有自己的DNS缓存,可能就包括了这在查询的内容;如果没有,要查询

2016-09-22 23:47:20 2139

原创 【字符串1】反转单词顺序

反转单词顺序(句子反转,但单词不反转)i am a student.---->student. a am i思路:(1)反转所有字符(2)反转每个单词(判断单词是用双指针)public class stringAbout { //翻转 public static char[] reverse(char[] str,int start,int end){ if(str.l

2016-09-01 19:18:12 570

原创 【数组4】数字在排序数组中出现的次数

题目:1,2,3,3,3,3,4,5   当key=3时返回4思路:二分查找(1)找到key在数组中出现的开始位置和结束位置,用二分查找法时间复杂度:O(logn)def searchFirst(array,key): start=0 end=len(array)-1 while(start <= end): mid=(start+end)/

2016-08-31 18:41:11 210

原创 【数组3】连续子数组的最大和

题目:找到数组1 -2 3 10 -4 7 2 -5中的最大和思路:(1)如果前面的和为负值,则加上会使得sum(2)动态规划方法--递归     设sum[i] 为前i个元素中,包含第i个元素且和最大的连续子数组,result 为已找到的子数组中和最大的。对第i+1个元素有两种选择:做为新子数组的第一个元素、放入前面找到的子数组。sum[i+1] = max(a[i+1]

2016-08-31 18:37:01 302

原创 【数组2】数组中出现次数超过一半的数

思路:考虑数组本身的特性特点:出现次数超过一半的数==该数出现的次数比其他所有数出现的次数都多。方法:遍历数组,保存两个值,一个是数字,一个是数字出现的次数时间复杂度:O(n)def searchHalfNum(array): if len(array)==0: return -1 temp=array[0] num=1 for i in rang

2016-08-31 15:11:33 223

原创 【数组1】旋转数组 找最小值 找指定值

1.一个有序数组1,2,3,4,5,6,7,8,9,但是被截断处理了,变成了5,6,7,8,9,1,2,3,查找数组的最小值(旋转数组求最小值)最小元素位于end-start==1的位置循环条件是array[start]>array[end]特殊情况:(1)旋转0个元素,第一个元素是最小值,因此mid初始值为start(2)1 0 1 1 1,只能采用按顺序查找的方法d

2016-08-31 13:40:45 746

原创 pagerank原理总结

1.pagerank算法概述又名网页排名,是Google创始人拉里·佩奇和谢尔盖·布林于1997年构建早期的搜索系统原型时提出的链接分析算法,自从Google在商业上获得空前的成功后,该算法也成为其他搜索引擎和学术界十分关注的计算模型。核心思想:如果一个网页被很多其他网页所链接,说明它受到普遍的承认和信赖,那么它的排名就越高。2.pagerank基本思想如果网页T存在一个指向网

2016-08-16 14:13:06 10840

原创 知识积累

RSA非对称加密算法加密n、e;解密n、d(token采用的就是RSA方法加密)

2016-08-16 11:35:24 209

原创 matlab gaot工具箱安装详细说明

1.安装参考文档http://www.ilovematlab.cn/thread-218176-1-1.html2.解决matlab自带ga和gaot的冲突首先在matlab->toolbox下搜索ga.m,应该能够搜到两个,将goat里的ga.m复制到搜索到的另一个文件夹A下,将A文件夹下的ga.m改个名字,ok了。(如果找不到自带ga的路径,可以在matlab终端通过w

2016-08-15 11:11:35 11911

原创 awk基本操作

$0变量:它指的是整条记录。如$ awk '{print $0}' test将输出test文件中的所有记录。变量NR:一个计数器,每处理完一条记录, NR的值就增加1。如$ awk '{print NR,$0}' test将输出test文件中所有记录,并在记录前显示记录号。eg:awk '{print NR,$0}' abcawk中的数组的下标可以是数字和字母,

2016-07-28 18:23:46 361

原创 git入门

1.初始化版本:git initgit remote add origin  http://gitlab.baidu.com/i18n_crawl.git2.添加密钥:cd ~/.sshlsssh-keygencat .pub3.git设置邮箱和密钥: git config --global user.name "yang" gi

2016-07-27 19:54:18 214

原创 爬虫抓取

爬虫抓取的方式有两种:1.简单import urllib2dir(urllib2)urllib2.urlopen(url)html=responce.read()2.复杂import urllib2def make_opener(headers=None): cookie=cookielib.CookieJar() opener=

2016-07-26 20:04:39 336

原创 Matlab安装 解决error114

最近需要在matlab上跑一些算法,顺便在电脑上安装了Matlab软件在百度上找到的这个帖子点击打开链接  原网址是http://jingyan.baidu.com/article/c275f6ba218d43e33d7567fd.html按着这个步骤一步一卡来就能完美安装。。。安装了两遍,遇到一个error,error114出现这个问题是因为libmwservices.dll文件

2016-05-29 15:28:39 7876 3

原创 python正则表达式(关于re)

Python的正则表达式import re一、匹配单个字符.(匹配任意字符除了\n)     ma=re.match(r'{.}','a')     ma.group()         ---结果为:a     ma=re.match(r'{...}','abc')     ma.group()         ---结果为:abc[...](

2016-03-29 18:55:23 445

原创 python爬虫之抓取网页中的图片到本地

最近开始学习python,python的爬虫诱惑力实在太强。今天看着网上的教程,也学会了这样一个小功能主要步骤是:1.抓取网页2.获取图片地址3.抓取图片内容并保存到本地下面是关键代码:import urllib.requestreq=urllib.request.urlopen('http://www.imooc.com/course/list')bu

2016-03-26 20:02:29 15477 7

原创 提取出某日访问百度次数最多的IP

问题:海量日志数据,提取出某日访问百度次数最多的那个IP。解决办法:1.数据量太大,采用“分而治之(hash映射)”的策略2.将大数据根据hash法映射到不同的小文件中3.hash map(key,value)统计每个key的的出现次数(针对划分后的小文件操作),并返回小文件中最大的一条map值4.在所有小文件中找到最大的map值,就是最终要的访问次数最多的ip值。注:代码

2016-03-24 16:25:44 565

原创 关于坚持

很多梦想 毁于没能继续坚持今天起、给自己定个计划每周坚持写一篇博客,机器学习、数据挖掘、java都可以

2016-03-22 12:11:07 262

转载 [java]多态

运行时多态性是面向对象程序设计代码重用的一个最强大机制,Java多态性的概念也可以被说成“一个接口,多个方   法”。Java实现运行时多态性的基础是动态方法调度,它是一种在运行时而不是在编译期调用重载方法的机制。方法的重写Overriding和重载Overloading是Java多态性的不同表现。重写Overriding是父类与子类之间多态性的一种表现,重载Overloading是一

2016-03-17 20:40:59 287

原创 ArrayList、LinkedList和Vector 的区别

一、ArrayList、LinkedList区别      1.ArrayList是实现了基于动态数组的数据结构,LinkedList基于链表的数据结构。      2.对于随机访问get和set,ArrayList觉得优于LinkedList,因为LinkedList要移动指针。      3.对于新增和删除操作add和remove,LinedList比较占优势,因为ArrayLis

2016-03-16 13:48:11 431

原创 菜鸟面试2

菜鸟面试之谈面试问题:1.Arraylist和Linkedlist的区别2.try catch finally异常3.单例实现线程安全4.线程知识:消费者生产者5.数据库,sql语句必备6.hive的连接7.大数据相关知识8.hashmap实现原理9.map reduce实现原理,两个文件实现去重,取交集10.用户数据表如何存储,使内存占的最小1

2016-03-16 12:24:50 356

原创 面试之谈

今天参加了“数据挖掘”部门的面试,面试官主要问了以下几个问题:1.监督学习和半监督学习分别有哪些算法,并讲了其中的一个算法实现(具体讲了决策树);问了逻辑回归的算法(这个算法在公司用的比较多),面试官对深度学习比较感兴趣。2.问了擅长的语言,关于外部包和管理工具的相关知识。3.自己之前做了一个基于spark的大作业,详细讲解了整个流程。4.序列化和反序列化的相关问题(完全懵了)。

2016-03-11 13:15:40 270

原创 spark 一步一来

作为研究生一枚,研究生的日子完全没有自己想象的那么美好,研一第一个大作业就是利用spark对美国公路网数据的分析。从环境搭建到接下来的分析,“无知”的感觉真可怕。。。步入正题:(记录这个只是为了能帮那些想要对spark入门的童鞋,也为了能记录自己每一步艰辛的学习经历)1.spark环境搭建:以下是在网上找到的比较可靠的搭建环境的页面:http://www.aboutyun.com/th

2016-01-19 22:21:10 349

原创 PriorityQueue优先级队列

public class Priority { public static void main(String[] args){PriorityQueue q=new PriorityQueue(10,new Comparator(){public int compare(student o1, student o2) {return o1.grade-o2.grade;}}

2015-11-18 20:15:55 343

原创 [java]截取字符串

public String get_data_name(){String url1=text_1.getText();String url=url1.replaceAll("\\\\", "/");//取得最后一个/的下标  int index = url.lastIndexOf("/");System.out.println("index"+index);//将字符串转为

2015-07-23 15:00:30 353

原创 [RCP]控件之Combo

获取Combo的值 public String get_data_type(){int key=combo_4.getSelectionIndex();String value=(String) combo_4.getItem(key);return value;}

2015-07-23 14:39:47 789

原创 java实现整个工程全局变量的方法

public class Project {//全局变量public static String project_name;public static String project_softwaretype;public static String project_development;public static String project_language;publi

2015-07-23 14:27:12 3395

原创 [RCP]布局之GridLayout

讲解详细的两个网址:http://www.csdn123.com/html/itweb/20130911/112161_112157_112174.htmhttp://blog.csdn.net/lin_fs/article/details/7714848

2015-07-23 11:12:01 609

原创 JFreeChart实现折线图

public class LineXYChart {//创建数据集public  CategoryDataset createDataset() {DefaultCategoryDataset dataset = new DefaultCategoryDataset();  String series="模型曲线";     //曲线名称       dataset.add

2015-06-18 09:20:43 1243

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除