- 博客(33)
- 收藏
- 关注
原创 基于nodejs的爬虫实现
技术点nodejs cheerio(解析网页dom节点)以爬取知乎日报http://daily.zhihu.com/网站为例,实现了一个爬虫小程序。爬虫思路如下:以请求http://daily.zhihu.com/网站首页为入口 解析列表页数据,获取每篇文章的标题title、详情页url、图片img 根据2中详情页url请求详情页,解析得到详情页文章内容数据 保存数据到数据库中...
2018-10-23 23:50:12 811
原创 python 爬虫
爬虫之抓取糗事百科的段子(python3.5环境):1.下载页面2.解析(xpath方法)# -*-coding:utf-8 -*-import urllib.requestimport sysimport iofrom lxml import etreefrom urllib.parse import urljoinsys.stdout = io.TextIOWrappe
2016-12-22 19:31:40 553
原创 window7 python 安装 lxml
window7安装lxml1.pip install wheel2.查看当前python环境支持的安装包文件1.输入python2.import pip;print(pip.pep425tags.get_supported())3.显示支持版本4.xml官网下载对应版本安装包:http://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml
2016-12-22 16:25:17 423
原创 python编码问题——解决python3 UnicodeEncodeError: 'gbk' codec can't encode character '\xXX' in position XX
python实现爬虫遇到编码问题:error:UnicodeEncodeError: 'gbk' codec can't encode character '\xXX' in position XX解决办法:改变标准输出添加代码:sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='gb18030') #改变标准输出的默
2016-12-22 14:59:53 27169 4
原创 【网络】面试中遇到的网络相关问题
1.http和https的区别:HTTP:是互联网上应用最为广泛的一种网络协议,是一个客户端和服务器端请求和应答的标准(TCP),用于从WWW服务器传输超文本到本地浏览器的传输协议,它可以使浏览器更加高效,使网络传输减少。HTTPS:是以安全为目标的HTTP通道,简单讲是HTTP的安全版,即HTTP下加入SSL层,HTTPS的安全基础是SSL,因此加密的详细内容就需要SSL。HTTPS
2016-09-24 12:36:04 527
原创 【网络】从输入url到获取页面的完整过程
1.查询DNS(域名解析),获取域名对应的IP地址查询浏览器缓存(浏览器会缓存之前拿到的DNS 2-30分钟时间),如果没有找到,检查系统缓存,检查hosts文件,这个文件保存了一些以前访问过的网站的域名和IP的数据。它就像是一个本地的数据库。如果找到就可以直接获取目标主机的IP地址了。没有找到的话,需要检查路由器缓存,路由器有自己的DNS缓存,可能就包括了这在查询的内容;如果没有,要查询
2016-09-22 23:47:20 2194
原创 【字符串1】反转单词顺序
反转单词顺序(句子反转,但单词不反转)i am a student.---->student. a am i思路:(1)反转所有字符(2)反转每个单词(判断单词是用双指针)public class stringAbout { //翻转 public static char[] reverse(char[] str,int start,int end){ if(str.l
2016-09-01 19:18:12 588
原创 【数组4】数字在排序数组中出现的次数
题目:1,2,3,3,3,3,4,5 当key=3时返回4思路:二分查找(1)找到key在数组中出现的开始位置和结束位置,用二分查找法时间复杂度:O(logn)def searchFirst(array,key): start=0 end=len(array)-1 while(start <= end): mid=(start+end)/
2016-08-31 18:41:11 228
原创 【数组3】连续子数组的最大和
题目:找到数组1 -2 3 10 -4 7 2 -5中的最大和思路:(1)如果前面的和为负值,则加上会使得sum(2)动态规划方法--递归 设sum[i] 为前i个元素中,包含第i个元素且和最大的连续子数组,result 为已找到的子数组中和最大的。对第i+1个元素有两种选择:做为新子数组的第一个元素、放入前面找到的子数组。sum[i+1] = max(a[i+1]
2016-08-31 18:37:01 323
原创 【数组2】数组中出现次数超过一半的数
思路:考虑数组本身的特性特点:出现次数超过一半的数==该数出现的次数比其他所有数出现的次数都多。方法:遍历数组,保存两个值,一个是数字,一个是数字出现的次数时间复杂度:O(n)def searchHalfNum(array): if len(array)==0: return -1 temp=array[0] num=1 for i in rang
2016-08-31 15:11:33 241
原创 【数组1】旋转数组 找最小值 找指定值
1.一个有序数组1,2,3,4,5,6,7,8,9,但是被截断处理了,变成了5,6,7,8,9,1,2,3,查找数组的最小值(旋转数组求最小值)最小元素位于end-start==1的位置循环条件是array[start]>array[end]特殊情况:(1)旋转0个元素,第一个元素是最小值,因此mid初始值为start(2)1 0 1 1 1,只能采用按顺序查找的方法d
2016-08-31 13:40:45 763
原创 pagerank原理总结
1.pagerank算法概述又名网页排名,是Google创始人拉里·佩奇和谢尔盖·布林于1997年构建早期的搜索系统原型时提出的链接分析算法,自从Google在商业上获得空前的成功后,该算法也成为其他搜索引擎和学术界十分关注的计算模型。核心思想:如果一个网页被很多其他网页所链接,说明它受到普遍的承认和信赖,那么它的排名就越高。2.pagerank基本思想如果网页T存在一个指向网
2016-08-16 14:13:06 10886
原创 matlab gaot工具箱安装详细说明
1.安装参考文档http://www.ilovematlab.cn/thread-218176-1-1.html2.解决matlab自带ga和gaot的冲突首先在matlab->toolbox下搜索ga.m,应该能够搜到两个,将goat里的ga.m复制到搜索到的另一个文件夹A下,将A文件夹下的ga.m改个名字,ok了。(如果找不到自带ga的路径,可以在matlab终端通过w
2016-08-15 11:11:35 12141
原创 awk基本操作
$0变量:它指的是整条记录。如$ awk '{print $0}' test将输出test文件中的所有记录。变量NR:一个计数器,每处理完一条记录, NR的值就增加1。如$ awk '{print NR,$0}' test将输出test文件中所有记录,并在记录前显示记录号。eg:awk '{print NR,$0}' abcawk中的数组的下标可以是数字和字母,
2016-07-28 18:23:46 396
原创 git入门
1.初始化版本:git initgit remote add origin http://gitlab.baidu.com/i18n_crawl.git2.添加密钥:cd ~/.sshlsssh-keygencat .pub3.git设置邮箱和密钥: git config --global user.name "yang" gi
2016-07-27 19:54:18 236
原创 爬虫抓取
爬虫抓取的方式有两种:1.简单import urllib2dir(urllib2)urllib2.urlopen(url)html=responce.read()2.复杂import urllib2def make_opener(headers=None): cookie=cookielib.CookieJar() opener=
2016-07-26 20:04:39 357
原创 Matlab安装 解决error114
最近需要在matlab上跑一些算法,顺便在电脑上安装了Matlab软件在百度上找到的这个帖子点击打开链接 原网址是http://jingyan.baidu.com/article/c275f6ba218d43e33d7567fd.html按着这个步骤一步一卡来就能完美安装。。。安装了两遍,遇到一个error,error114出现这个问题是因为libmwservices.dll文件
2016-05-29 15:28:39 7968 3
原创 python正则表达式(关于re)
Python的正则表达式import re一、匹配单个字符.(匹配任意字符除了\n) ma=re.match(r'{.}','a') ma.group() ---结果为:a ma=re.match(r'{...}','abc') ma.group() ---结果为:abc[...](
2016-03-29 18:55:23 469
原创 python爬虫之抓取网页中的图片到本地
最近开始学习python,python的爬虫诱惑力实在太强。今天看着网上的教程,也学会了这样一个小功能主要步骤是:1.抓取网页2.获取图片地址3.抓取图片内容并保存到本地下面是关键代码:import urllib.requestreq=urllib.request.urlopen('http://www.imooc.com/course/list')bu
2016-03-26 20:02:29 15514 7
原创 提取出某日访问百度次数最多的IP
问题:海量日志数据,提取出某日访问百度次数最多的那个IP。解决办法:1.数据量太大,采用“分而治之(hash映射)”的策略2.将大数据根据hash法映射到不同的小文件中3.hash map(key,value)统计每个key的的出现次数(针对划分后的小文件操作),并返回小文件中最大的一条map值4.在所有小文件中找到最大的map值,就是最终要的访问次数最多的ip值。注:代码
2016-03-24 16:25:44 587
转载 [java]多态
运行时多态性是面向对象程序设计代码重用的一个最强大机制,Java多态性的概念也可以被说成“一个接口,多个方 法”。Java实现运行时多态性的基础是动态方法调度,它是一种在运行时而不是在编译期调用重载方法的机制。方法的重写Overriding和重载Overloading是Java多态性的不同表现。重写Overriding是父类与子类之间多态性的一种表现,重载Overloading是一
2016-03-17 20:40:59 303
原创 ArrayList、LinkedList和Vector 的区别
一、ArrayList、LinkedList区别 1.ArrayList是实现了基于动态数组的数据结构,LinkedList基于链表的数据结构。 2.对于随机访问get和set,ArrayList觉得优于LinkedList,因为LinkedList要移动指针。 3.对于新增和删除操作add和remove,LinedList比较占优势,因为ArrayLis
2016-03-16 13:48:11 448
原创 菜鸟面试2
菜鸟面试之谈面试问题:1.Arraylist和Linkedlist的区别2.try catch finally异常3.单例实现线程安全4.线程知识:消费者生产者5.数据库,sql语句必备6.hive的连接7.大数据相关知识8.hashmap实现原理9.map reduce实现原理,两个文件实现去重,取交集10.用户数据表如何存储,使内存占的最小1
2016-03-16 12:24:50 375
原创 面试之谈
今天参加了“数据挖掘”部门的面试,面试官主要问了以下几个问题:1.监督学习和半监督学习分别有哪些算法,并讲了其中的一个算法实现(具体讲了决策树);问了逻辑回归的算法(这个算法在公司用的比较多),面试官对深度学习比较感兴趣。2.问了擅长的语言,关于外部包和管理工具的相关知识。3.自己之前做了一个基于spark的大作业,详细讲解了整个流程。4.序列化和反序列化的相关问题(完全懵了)。
2016-03-11 13:15:40 284
原创 spark 一步一来
作为研究生一枚,研究生的日子完全没有自己想象的那么美好,研一第一个大作业就是利用spark对美国公路网数据的分析。从环境搭建到接下来的分析,“无知”的感觉真可怕。。。步入正题:(记录这个只是为了能帮那些想要对spark入门的童鞋,也为了能记录自己每一步艰辛的学习经历)1.spark环境搭建:以下是在网上找到的比较可靠的搭建环境的页面:http://www.aboutyun.com/th
2016-01-19 22:21:10 372
原创 PriorityQueue优先级队列
public class Priority { public static void main(String[] args){PriorityQueue q=new PriorityQueue(10,new Comparator(){public int compare(student o1, student o2) {return o1.grade-o2.grade;}}
2015-11-18 20:15:55 360
原创 [java]截取字符串
public String get_data_name(){String url1=text_1.getText();String url=url1.replaceAll("\\\\", "/");//取得最后一个/的下标 int index = url.lastIndexOf("/");System.out.println("index"+index);//将字符串转为
2015-07-23 15:00:30 373
原创 [RCP]控件之Combo
获取Combo的值 public String get_data_type(){int key=combo_4.getSelectionIndex();String value=(String) combo_4.getItem(key);return value;}
2015-07-23 14:39:47 805
原创 java实现整个工程全局变量的方法
public class Project {//全局变量public static String project_name;public static String project_softwaretype;public static String project_development;public static String project_language;publi
2015-07-23 14:27:12 3437
原创 [RCP]布局之GridLayout
讲解详细的两个网址:http://www.csdn123.com/html/itweb/20130911/112161_112157_112174.htmhttp://blog.csdn.net/lin_fs/article/details/7714848
2015-07-23 11:12:01 633
原创 JFreeChart实现折线图
public class LineXYChart {//创建数据集public CategoryDataset createDataset() {DefaultCategoryDataset dataset = new DefaultCategoryDataset(); String series="模型曲线"; //曲线名称 dataset.add
2015-06-18 09:20:43 1276
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人