数据爬取
关于一些简易的python爬虫程序
ASS-ASH
人工智能,机器学习,深度学习,自然语言处理,情感分析
展开
-
python利用bs4获取网络小说
诗句名句小说网如下:https://www.shicimingju.com/book代码如下(以西游记为例):from bs4 import BeautifulSoupimport requestsif __name__=="__main__": url='https://www.shicimingju.com/book/xiyouji.html' headers={'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac O.原创 2022-03-30 15:25:01 · 1031 阅读 · 0 评论 -
python利用etree实现4K图片获取
彼岸图网网址如下:https://pic.netbian.com/自动下载图片代码如下:from lxml import etreeimport requestsimport osif __name__=="__main__": url='https://pic.netbian.com/4kyouxi/' headers={ 'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.6;原创 2022-03-28 22:57:14 · 7072 阅读 · 7 评论 -
python利用bs4获取国家统计局三级行政区及代码
import requestsimport timeimport refrom bs4 import BeautifulSoupheaders = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.204 Safari/537.36', 'Cookie':'AD_RS_COOKIE=20080918; _trs_u.原创 2022-03-23 12:16:13 · 2655 阅读 · 0 评论 -
python实现自动获取国家统计局三级行政区及代码
import requestsimport timefrom lxml import etreedef analysis_html(address, pattern): global trs response = requests.get(address, headers=headers) response.encoding = 'utf-8' text = response.text html = etree.HTML(text) trs = h.原创 2022-03-22 10:51:51 · 410 阅读 · 0 评论 -
B站视频评论(bilibili视频评论)获取
from selenium import webdriverfrom selenium.webdriver.chrome import optionsfrom selenium.webdriver.support import expected_conditions as ECfrom selenium.webdriver.support.ui import WebDriverWaitfrom selenium.webdriver.common.by import Byfrom bs4 impo.原创 2021-11-13 11:23:34 · 1395 阅读 · 0 评论 -
新浪微博:selenium自动化爬取某一个话题所有的博文内容
不多说!!!直接附上完整代码如下:from selenium import webdriverfrom selenium.webdriver.support import expected_conditions as ECfrom selenium.webdriver.support.ui import WebDriverWaitfrom selenium.webdriver.common.by import Byfrom bs4 import BeautifulSoupimport tim原创 2021-09-17 15:57:28 · 1439 阅读 · 3 评论 -
微博博文内容爬取
不知你们发现了没有,微博偷偷推出了一个新版本的 网页版界面相对原版微博来说简直是舒服了不知多少倍,全新炫目的微博界面、清晰有条理的分组阅读、个性化的应用管理……(微博打钱!)那咱们今天就用这个来爬一爬你女神历史博文数据吧!一、网页分析今天我选择的女神是迪丽热巴!阿巴阿巴找到热巴的主页,依旧先打开开发者模式,然后刷新网页。我们很容易的就能找到这个请求,我们可以看到,里面包含博文内容信息、点赞数、转发数、评论数、发文时间等等一些信息。还能获得热巴的照片哦,这里就不再教你们了^_转载 2021-09-16 09:45:04 · 1963 阅读 · 5 评论