![](https://img-blog.csdnimg.cn/20190927151132530.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
爬虫学习
掌握定向网络数据爬取和网页解析的基本能力
名字不要太长像我这样就好0
别 辜负今天
展开
-
淘宝商品信息爬取(已登录)
感谢此链接对淘宝登录的帮助 已成功爬取,以下是源代码: # 目标:获取淘宝搜索页面的信息 提取其中的商品名称和价格 # 理解:1、淘宝的搜索接口 2、翻页处理 # 技术路线:requests re # http://s.taobao.com/search?q=书包&js=1&stats_click=search_radio_all%3A1&initiative_id=sta...原创 2020-03-12 18:35:47 · 1629 阅读 · 1 评论 -
正则表达式
# pattern:正则表达式的字符串或原生字符串表示 # string:待匹配字符串 # flags;正则表达式使用时的控制标记 # search 在一个字符串中搜索匹配正则表达式的第一个位置 返回match对象 import re match1=re.search(r'[1-9]\d{5}','BIT 100081') if match1: pr...原创 2020-03-11 20:53:42 · 126 阅读 · 0 评论 -
中国大学定向排名爬取
# 功能描述 # 输入:大学排名url链接 # 输出:大学排名信息的屏幕输出(排名,大学名称,总分) # 打开http://www.zuihaodaxue.cn/robots.txt 发现不存在 可以爬 # 程序的结构设计 # 步骤1:从网络上获取大学排名网页内容→getHTMLText() # 步骤2:提取网页内容中信息到合适的数据结构→fillUnivList() # 步骤3:利用数据结构...原创 2020-03-11 10:42:40 · 214 阅读 · 0 评论 -
BeautifuSoup库以及findALL中参数
一、安装BeautifuSoup库 以管理员打开cmd输入:pip install BeautifuSoup4 二、BeautifuSoup库的理解 BeautifuSoup库是解析、遍历、维护”标签树“的功能库 import requests from bs4 import BeautifulSoup # 获取标签 r=requests.get("http://python123.io/...原创 2020-03-10 15:17:46 · 209 阅读 · 0 评论 -
图片爬取
import requests import os url="https://ss2.bdstatic.com/70cFvnSh_Q1YnxGkpoWK1HF6hhy/it/u=1495098953,1880040495&fm=26&gp=0.jpg" root="D://pics//" path=root+url.split('/')[-1] try: if not os...原创 2020-03-10 11:11:35 · 143 阅读 · 0 评论 -
百度搜索关键词爬取
import requests keyword="Python" url="http://www.baidu.com/s" try: kv={'wd':keyword} r=requests.get(url,params=kv) print(r.request.url) r.raise_for_status() print(len(r.text )) ...原创 2020-03-10 10:51:13 · 1032 阅读 · 0 评论 -
亚马逊商品页面爬取
import requests url="https://www.amazon.cn/gp/product/B01M8L5Z3Y" try: r=requests.get(url) print(r.status_code) print(r.request.headers) # 亚马逊识别了此次访问是由'User-Agent': 'python-requests/2.23.0...原创 2020-03-10 10:36:50 · 449 阅读 · 0 评论 -
京东商品页面爬取
import requests url="https://item.jd.com/2967929.html" try: r=requests.get(url) r.raise_for_status() # 如果非200 则触发异常 r.encoding=r.apparent_encoding print(r.text[0:1000]) except: pr...原创 2020-03-10 10:18:22 · 261 阅读 · 0 评论 -
爬虫准备知识
一、开发环境 IDE:集成开发环境 (编写,调试和发布python的工具) 常用的python IDE工具: 1、文本工具类IDE IDLE(python自带的、默认的、常用的、入门级编写工具) Sublime Text(专门为程序员开发的第三方专用编程工具) 2、集成类工具IDE Pycharm(简单,集成度高,适合较复杂工程) Anaconda&Spyd...原创 2020-03-09 09:50:08 · 130 阅读 · 0 评论