爬虫
VanChaoi
钓鱼要到岛上钓,不到岛上钓不到.
展开
-
Python爬虫02(urllib自带模块编写)
Python 3.x版本后的urllib和urllib2现在的Python已经出到了3.5.2在Python 3以后的版本中,urllib2这个模块已经不单独存在(也就是说当你import urllib2时,系统提示你没这个模块),urllib2被合并到了urllib中,叫做urllib.request 和 urllib.error 。urllib整个模块分为urllib.reques...原创 2018-08-23 21:42:00 · 453 阅读 · 0 评论 -
Python爬虫(概念基础01)
爬虫怎么抓取网页数据:网页的三大特征网也有自己唯一的URL(统一资源定位符)来进行定位 网页都使用HTML(超文本标记语言)来描述页面信息 网页都使用HTTP/HTTPS(超文本传输协议)协议来传输HTML数据爬虫的设计思路首先确定需要爬取的网页URL地址 通过HTTP/HTTPS协议来获取对应的HTML页面 提取HTML页面里有用的数据 a.如果是需要的数据,保存起来 b....原创 2018-08-17 23:04:12 · 364 阅读 · 0 评论 -
Python 爬虫 (翻页爬取,腾讯社招网)
1.创建项目tencentSpiderscrapy startproject tencentSpider2.进入项目下创建爬虫scrapy genspider -t crawl tencent hr.tencent.com3.编辑items.py 写入提取字段模块类# -*- coding: utf-8 -*-# Define here the models fo...原创 2018-09-04 16:38:05 · 1235 阅读 · 0 评论 -
爬虫(cookie,代理IP)
1.先登录得到url 和cookieimport urllib.requesturl="https:***"headers={ "Host ":"blog.csdn.net" , "Connection ":"keep-alive" , # "Cache-Control ":"max-age=0" ,原创 2018-09-07 23:38:27 · 770 阅读 · 0 评论