![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫笔记
槿年的槿年
就读于中央民族大学,语音识别方向。
展开
-
网络爬虫信息提取实战之scrapy框架股票信息爬取17
# -*- coding: utf-8 -*-#stocks.pyimport scrapyimport reclass StocksSpider(scrapy.Spider): name = 'stocks' start_urls = ['http://baidu.com/'] def parse(self, respo...原创 2020-05-07 18:49:08 · 244 阅读 · 0 评论 -
网络爬虫信息提取实战之scrapy框架16
原创 2020-05-07 17:13:03 · 89 阅读 · 0 评论 -
网络爬虫信息提取实战之股票数据15
#导入各种需要用到的库import requestsfrom bs4 import BeautifulSoupimport tracebackimport re# 定义第一个函数,获取网页的数据def getHTMLText(url): try: r = requests.get(url,timeout = 30) ...原创 2020-05-04 10:59:31 · 329 阅读 · 0 评论 -
网络爬虫信息之实战淘宝书包信息爬取14
# 导入requests和re正则库import requestsimport re# 定义第一个函数实现获取网页数据def getHTMLText(url,loginheaders): try: r = requests.get(url,headers=loginheaders, timeout=30) r.raise_for_status()...原创 2020-05-03 17:37:17 · 701 阅读 · 0 评论 -
网络爬虫信息之实战正则表达式13
原创 2020-04-28 11:00:34 · 95 阅读 · 0 评论 -
网络爬虫信息提取之实例大学排名012
#导入库import requestsfrom bs4 import BeautifulSoupimport bs4def getHTMLText(url): try: r = requests.get(url,timeout=30) r.raise_for_status() r.encoding = r.apparent_...原创 2020-04-27 11:29:00 · 264 阅读 · 0 评论 -
网络爬虫之信息提取011
import reimport requestsfrom bs4 import BeautifulSoup#获取html源代码r = requests.get("http://python123.io/ws/demo.html")demo = r.text#输出源代码print(demo)pr...原创 2020-04-22 17:35:00 · 152 阅读 · 0 评论 -
网络爬虫之信息提取008
安装beautifulsoup4使用beautifulsoup4:(两个参数分别是数据和解析格式)原创 2020-04-22 11:26:59 · 122 阅读 · 0 评论 -
网络爬虫之前奏总结
1.首先在电脑安装requests库:命令:pip install requests2.爬取网页内容:一:爬取页面内容(文字信息)代码:添加headers是为了对应网站的反爬技术#爬取京东商品页面信息#导入requests库import requests#商品地址url="https://item.jd.com/100012014970.html#crumb-wrap...原创 2020-04-20 10:09:42 · 504 阅读 · 0 评论 -
网络爬虫前奏之ip归属地查询007
import requestsurl="https://ip38.com/ip.php?ip="try: r=requests.get(url+"202.204.80.112") r.raise_for_status() r.encoding=r.apparent_encoding print(r.text)except: print("爬取失败")...原创 2020-04-19 10:46:49 · 186 阅读 · 0 评论 -
网络爬虫前奏之图片的爬取006
import requestsimport os#爬取图片的urlurl = "https://images-cn.ssl-images-amazon.com/images/I/81M5fmmHKbL._AC_SL1500_.jpg"#图片存放的目录root="E://移动后的桌面//爬虫//image//"#图片存放的目录加网页图片的名字path=root+url.split...原创 2020-04-19 09:39:54 · 95 阅读 · 0 评论 -
网络爬虫前奏之实例百度搜索005
import requestskeyword = "Python"try: kv = {'wd':keyword} headers={ 'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987...原创 2020-04-19 08:55:52 · 574 阅读 · 0 评论 -
网络爬虫前奏之实例爬取京东商品004
import requestsurl = "https://item.jd.com/100006349791.html"try: r=requests.get(url) r.raise_for_status() r.encoding = r.apparent_encoding #[:1000]是字符串切片,前1000个字符 print(r.text[:...原创 2020-04-18 20:48:20 · 253 阅读 · 0 评论 -
网络爬虫前奏之盗亦有道003
Robts协议:原创 2020-04-18 18:24:57 · 82 阅读 · 0 评论 -
网络爬虫之前奏002
对于 if __name__=="__main__"的解释见博客:https://blog.konghy.cn/2017/04/24/python-entry-program/主要使用get和head(概要信息)...原创 2020-04-18 18:01:48 · 109 阅读 · 0 评论 -
网络爬虫之前奏001
首先打开电脑cmd:安装requestsrequests的get方法原创 2020-04-18 17:23:32 · 88 阅读 · 0 评论