自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

smilemilk的博客

一个奋斗的传奇编程小子 qq_841937136

  • 博客(6)
  • 资源 (4)
  • 收藏
  • 关注

原创 XPath和CSS 3的解析器比较

最近,我做了很多工作来实现一个同时支持XPath和CSS 3的解析器,令我惊讶的是:它们俩在某些方面上非常相似,而在另一些方面上又完全不同.不同的地方有,CSS是用来配合HTML工作的,可以使用#id来根据ID获取元素,以及使用.class来根据class获取元素.这些用XPath实现的话都不会那么简洁,反过来呢,XPath可以使用..来返回到DOM树的上层节点中,还可以使用foo[bar]来获取

2016-05-24 17:06:27 4532

原创 Python爬虫框架scrapy批量获取腾讯招聘网上面的信息

所谓网络爬虫,就是一个在网上到处或定向抓取数据的程序,当然,这种说法不够专业,更专业的描述就是,抓取特定网站网页的HTML数据。不过由于一个网站的网页很多,而我们又不可能事先知道所有网页的URL地址,所以,如何保证我们抓取到了网站的所有HTML页面就是一个有待考究的问题了。一般的方法是,定义一个入口页面,然后一般一个页面会有其他页面的URL,于是从当前页面获取到这些URL加入到爬虫的抓取队列中,然

2016-05-24 16:26:49 2859

原创 python http请求以及Cookie的模拟

对去哪儿网请求发送http查询: 方法中,url必须是无一个dns查询的url,不能够包含Url中的子目录;比如www.baidu.com是一个有效的url,而 www.baidu.com/file/ 就不是一个有效的url post的时候header中的refer那个参数很重要。 [python] view plain copy def get(self

2016-05-17 09:17:42 3651

原创 python通过get,post方式发送http请求和接收http响应的方法

本文实例讲述了python通过get,post方式发送http请求和接收http响应的方法。分享给大家供大家参考。具体如下: 测试用CGI,名字为test.py,放在apache的cgi-bin目录下: 1 2 3 4 5 6 7 8 9 10 #!/usr/bin/python import cgi def ma

2016-05-17 09:10:19 1521

原创 登录知乎的爬虫

#!/usr/bin/env python # -*- coding: utf-8 -*- # @Date====: 2015-09-30 20:53:15 import requests from bs4 import BeautifulSoup import time import json import os #登陆知乎 url = 'http://www.zhihu.co

2016-05-16 18:53:51 624

原创 零基础写python爬虫之使用Scrapy框架编写爬虫

网络爬虫,是在网上进行数据抓取的程序,使用它能够抓取特定网页的HTML数据。虽然我们利用一些库开发一个爬虫程序,但是使用框架可以大大提高效率,缩短开发时间。Scrapy是一个使用Python编写的,轻量级的,简单轻巧,并且使用起来非常的方便。使用Scrapy可以很方便的完成网上数据的采集工作,它为我们完成了大量的工作,而不需要自己费大力气去开发。 首先先要回答一个问题。 问:把网站装进爬虫里,

2016-05-10 10:01:50 4933

hanlp-1.7.7-release.zip

hanlp所需要的配置

2020-04-24

推荐系统实践-项亮

推荐系统实践 作者: 项亮 描述:随着信息技术和互联网的发展,人们逐渐从信息匮乏的时代走入了信息过载(information overload)的时代 。在这个时代,无论是信息消费者还是信息生产者都遇到了很大的挑战:对于信息消费者,从大量信息中找到自己感兴趣的信息是一件非常困难的事情;对于信息生产者,让自己生产的信息脱颖而出,受到广大用户的关注,也是一件非常困难的事情。推荐系统就是解决这一矛盾的重要工具。推荐系统的任务就是联系用户和信息,一方面帮助用户发现对自己有价值的信息,另一方面让信息能够展现在对它感兴趣的用户面前,从而实现信息消费者和信息生产者的双赢。 项亮,毕业于中国科学技术大学和中国科学院自动化所,研究方向为机器学习和推荐系统,现任职于北京Hulu软件技术开发有限公司,从事视频推荐的研究和开发。2009年参加Netflix Prize推荐系统比赛获得团体第二名,且于当年发起创建了Resys China推 荐系统社区。 PS:本书是学习推荐系统的经典书籍,十分推荐!收缩

2017-08-14

廖雪峰python3 学习文档

廖雪峰老师讲授python3 的学习,深入浅出容易上手

2016-02-24

c语言自学,自敲代码

里面有我自学时候的一下自敲代码,分类齐全,新手首选

2015-09-24

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除