2016年05月_smile_milk1992

08月 07月 06月 05月 02月 01月

原创 XPath和CSS 3的解析器比较

最近,我做了很多工作来实现一个同时支持XPath和CSS 3的解析器,令我惊讶的是:它们俩在某些方面上非常相似,而在另一些方面上又完全不同.不同的地方有,CSS是用来配合HTML工作的,可以使用#id来根据ID获取元素,以及使用.class来根据class获取元素.这些用XPath实现的话都不会那么简洁,反过来呢,XPath可以使用..来返回到DOM树的上层节点中,还可以使用foo[bar]来获取

2016-05-24 17:06:27 4549

原创 Python爬虫框架scrapy批量获取腾讯招聘网上面的信息

所谓网络爬虫，就是一个在网上到处或定向抓取数据的程序，当然，这种说法不够专业，更专业的描述就是，抓取特定网站网页的HTML数据。不过由于一个网站的网页很多，而我们又不可能事先知道所有网页的URL地址，所以，如何保证我们抓取到了网站的所有HTML页面就是一个有待考究的问题了。一般的方法是，定义一个入口页面，然后一般一个页面会有其他页面的URL，于是从当前页面获取到这些URL加入到爬虫的抓取队列中，然

2016-05-24 16:26:49 2876

原创 python http请求以及Cookie的模拟

对去哪儿网请求发送http查询：方法中，url必须是无一个dns查询的url，不能够包含Url中的子目录；比如www.baidu.com是一个有效的url，而 www.baidu.com/file/ 就不是一个有效的urlpost的时候header中的refer那个参数很重要。[python] view plain copy def get(self

2016-05-17 09:17:42 3666

原创 python通过get,post方式发送http请求和接收http响应的方法

本文实例讲述了python通过get,post方式发送http请求和接收http响应的方法。分享给大家供大家参考。具体如下：测试用CGI,名字为test.py，放在apache的cgi-bin目录下:12345678910#!/usr/bin/pythonimport cgidef ma

2016-05-17 09:10:19 1553

原创登录知乎的爬虫

#!/usr/bin/env python# -*- coding: utf-8 -*-# @Date====: 2015-09-30 20:53:15import requestsfrom bs4 import BeautifulSoupimport timeimport jsonimport os#登陆知乎url = 'http://www.zhihu.co

2016-05-16 18:53:51 636

原创零基础写python爬虫之使用Scrapy框架编写爬虫

网络爬虫，是在网上进行数据抓取的程序，使用它能够抓取特定网页的HTML数据。虽然我们利用一些库开发一个爬虫程序，但是使用框架可以大大提高效率，缩短开发时间。Scrapy是一个使用Python编写的，轻量级的，简单轻巧，并且使用起来非常的方便。使用Scrapy可以很方便的完成网上数据的采集工作，它为我们完成了大量的工作，而不需要自己费大力气去开发。首先先要回答一个问题。问：把网站装进爬虫里，

2016-05-10 10:01:50 4948

hanlp-1.7.7-release.zip

hanlp所需要的配置

2020-04-24

廖雪峰python3 学习文档

廖雪峰老师讲授python3 的学习，深入浅出容易上手

2016-02-24

c语言自学，自敲代码

里面有我自学时候的一下自敲代码，分类齐全，新手首选

2015-09-24

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

smilemilk的博客

原创 XPath和CSS 3的解析器比较

原创 Python爬虫框架scrapy批量获取腾讯招聘网上面的信息

原创 python http请求以及Cookie的模拟

原创 python通过get,post方式发送http请求和接收http响应的方法

原创登录知乎的爬虫

原创零基础写python爬虫之使用Scrapy框架编写爬虫

hanlp-1.7.7-release.zip

推荐系统实践-项亮

廖雪峰python3 学习文档

c语言自学，自敲代码

空空如也

原创 XPath和CSS 3的解析器比较

原创 Python爬虫框架scrapy批量获取腾讯招聘网上面的信息

原创 python http请求以及Cookie的模拟

原创 python通过get,post方式发送http请求和接收http响应的方法

原创 登录知乎的爬虫

原创 零基础写python爬虫之使用Scrapy框架编写爬虫

hanlp-1.7.7-release.zip

推荐系统实践-项亮

廖雪峰python3 学习文档

c语言自学，自敲代码

空空如也

原创登录知乎的爬虫

原创零基础写python爬虫之使用Scrapy框架编写爬虫