python爬虫(五):实战 【5. 使用正则爬亚马逊价格】

使用正则定位价格,更简单 import requests import re url = 'https://www.amazon.cn/s/field-keywords=spark' # 隐藏爬虫 head = {'user-agent':'Mozilla/5.0 (Windows NT...

2018-12-09 12:58:01

阅读数:33

评论数:0

python爬虫(五):实战 【4. 爬亚马逊】

目标:在亚马逊网站搜索商品,爬取前10页的商品(名字和价格) 第一步:访问网站,隐藏爬虫 亚马逊对爬虫限制比较严格,修改headers、cookies、代理ip 获取cookie:f12在console输入document.cookie() 注意:cookies格式为字典,{'a':'1'...

2018-12-09 12:56:16

阅读数:37

评论数:1

python爬虫(五):实战 【3. 使用正则来爬创客实验室】

依然爬取创科实验室网站中讲座的信息(只爬标题,其它同) 但技术上采用requests+正则表达式   思想: #通过正则表达式,获取讲座标题 规则:<h3>中文字符出现4次 任意字符</h3> m =...

2018-12-09 12:50:54

阅读数:12

评论数:0

python爬虫(五):实战 【2. 爬创客实验室(requests + bs4)】

目标:爬取创科实验室网站中讲座的信息, 输出表:讲座标题、报告人、单位、报告时间、讲座内容、报告人简介 技术:requests + bs4   查看爬虫协议: http://127.0.0.1/lab/robots.txt (创科实验室是我自己写的网址,不反爬虫)   经过观察,在...

2018-12-09 12:47:14

阅读数:78

评论数:0

python爬虫(五):实战 【1. 检验代理ip小程序】

# 检验代理ip是否可用 import requests proxy_id = { "http": "http://110.73.42.32:8123"} r = requests.get('http://ip.webm...

2018-12-09 12:42:39

阅读数:32

评论数:0

python爬虫(四):scrapy 【2. 其他重要部分】

中文文档:http://www.scrapyd.cn/doc/   本节包括: 1. resquest 和 response 的属性方法 2. scrapy提取信息的强大方法     request 和 response request: 属性或方法 说明 .url Reque...

2018-12-09 12:41:10

阅读数:39

评论数:0

python爬虫(四):scrapy 【1. 快速上手】

中文文档:http://www.scrapyd.cn/doc/   Scrapy是采用Python开发的一个快速、高层次的屏幕抓取和web抓取框架。 什么是爬虫框架? 爬虫框架是实现爬虫功能的一个软件结构和功能组件集合。 爬虫框架是一个半成品,能够帮助用户实现专业网络爬虫。 应用Scr...

2018-12-09 12:38:40

阅读数:65

评论数:0

python爬虫(三):BeautifulSoup 【6. 实例】

爬取最好大学网的大学排名   需要掌握的其它知识: (1)列表 list1=[1,2,3],list1.append([3,4]) (2)format用法 .format 比 % 更好用,按位置替换,详细了解可以参考网址 https://blog.csdn.net/u01477037...

2018-12-09 12:19:51

阅读数:30

评论数:0

python爬虫(三):BeautifulSoup 【5. 信息提取(find_all)】

find_all: <>.find_all(name, attrs, recursive, string, **kwargs) ∙ name : 对标签名称的检索字符串 ∙ attrs: 对标签属性值的检索字符串,可标注属性检索 ∙ recurs...

2018-12-05 23:26:32

阅读数:7

评论数:0

python爬虫(三):BeautifulSoup 【4. 输出(prettify)】

bs4的prettify方法非常棒 bs4将文本默认转换为utf-8编码 prettify方法同样可以对标签进行使用 print(soup.a.prettify())

2018-12-05 23:21:15

阅读数:10

评论数:0

python爬虫(三):BeautifulSoup 【3. 遍历】

通过遍历,可以定位到所需节点的位置,再提取信息   下行遍历: 属性 说明 .contents 子节点的列表,将<tag>所有儿子节点存入列表 .children 子节点的迭代类型,与.contents类似,用于循环遍历儿子节点 .d...

2018-12-05 23:18:59

阅读数:7

评论数:0

python爬虫(三):BeautifulSoup 【2. 标签的操作】

可以找到标签, 可以提取标签名字、标签属性、标签内字符串、注释内容等     BeautifulSoup类的基本元素 <p class=“title”> … </p> 基本元素 说明 Tag ht...

2018-12-05 23:17:43

阅读数:8

评论数:0

python爬虫(三):BeautifulSoup 【1. 快速上手】

我们使用BeautifulSoup是来解析爬取到的html页面 教程文档:https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html BeautifulSoup也是第三方库,需要安装,但anaconda自带(anaco...

2018-12-05 23:14:03

阅读数:8

评论数:0

python爬虫(二):requests库(常用)

requests库是第三方库,需要安装(anaconda自带),但友好度更高 教程:http://docs.python-requests.org/zh_CN/latest/   连接网页并打印网页内容: import requests r = requests.get(&quo...

2018-12-05 23:07:39

阅读数:6

评论数:0

python爬虫(一):urllib(不常用)

1. python连接互联网 使用urllib库或者requests库 urllib库是python自带的标准库 requests库是第三方库,友好度更高,需要安装(anaconda实测不用) urllib.request.urlopen()   # 导包 import urllib...

2018-12-05 23:00:47

阅读数:6

评论数:0

hadoop生态圈

hdfs: 存文件的,分布式文件存储系统   map-reduce: 有map和reduce两个阶段,适用于分布式的并行计算。   yarn: 资源调度的,资源管理器,新的map-reduce版本 详细介绍:https://www.cnblogs.com/yjd_hycf_space/p...

2018-11-29 23:57:23

阅读数:7

评论数:0

python数据分析(numpy、matplotlib、pandas)

参考教程: https://www.cnblogs.com/yan-lei/tag/%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90/

2018-11-14 19:22:51

阅读数:25

评论数:0

django网页开发:5. 部署(apache+mod_wsgi)

必须安装的环境: python:3.6 django:2.1.2 (在部署时一直报500错误,最后发现是我犯了一个很低级的错误,没装django) (因为是从别的电脑拷贝来的,pycharm直接创建的Django项目,忽略了这一步)   如果部署到apache服务器: 版本环境: ...

2018-11-13 23:24:45

阅读数:16

评论数:0

django网页开发:4. 静态文件(css、js、图片)

静态文件 在blog_project项目的settings.py上配置 静态文件是指 网站中的 js, css, 图片,视频等文件,新建一个static文件夹来存放他们 引用static文件夹,在settings.py末尾加上: STATICFILES_DIRS = ( os.path....

2018-11-13 23:18:49

阅读数:16

评论数:0

django网页开发:3. 模型、数据库、admin

搞定数据库 (1)创建数据库 django默认使用的数据库是sqlite3,如果需要使用其他数据库需要配置文件settings.py 数据库需要放一张表,存放文章标题、文章内容、作者、时间 blog/models.py (2)生成数据表(数据迁移) 工具——》run manage....

2018-11-13 23:15:59

阅读数:22

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭