python爬虫
敲代码的小风
是书何以作?曰:为以夷攻夷而作,为以夷款夷而作,为师夷长技以制夷而作。
展开
-
Python Selenium 抖音直播平台实现自动发送评论
首先运行 test_01_save_cookies.py 手动登入个人的抖音账号获得浏览器的 cookies, 并以pickle文件的格式保存到当前目录下.然后打开文件 test_02_use_cookies.py 将第15行代码中的URL链接改成所需要的抖音主播链接,修改完成后,运行即可实现为自己喜爱的主播打call.test_01_save_cookies.pyfrom selenium import webdriverimport timeimport picklebrowser原创 2021-08-13 12:44:26 · 12565 阅读 · 32 评论 -
Python Selenium 登入bilibili平台
首先运行代码 1.py并手动登入用户账号, 然后程序自动保存与用户相关的cookies文件,并将cookies内容以pickle的形式保存到当前目录下.最后运行 2.py 文件,即可实现用户登入.1.pyfrom selenium import webdriverimport timeimport picklebrowser = webdriver.Chrome()browser.get('https://www.bilibili.com/')time.sleep(5)print(原创 2021-08-13 12:30:43 · 988 阅读 · 0 评论 -
Python下载B站视频并保存到本地指定文件夹
所希望下载的B站视频链接地址: 被新垣结衣狂撩6分钟,这谁顶得住…代码展示:import osurl = r'"https://www.bilibili.com/video/BV1h4411V7oF"'savePath = r'F:\bilibili_video_download'command = 'you-get -o ' + savePath + ' ' + urlprint("打印命令:\n",command,sep='')os.system(command)运行过程展示:控制原创 2021-08-12 22:21:30 · 1377 阅读 · 1 评论 -
第一个爬虫项目-爬取唯美小姐姐网站
展示 源代码爬取[唯美小姐姐网站](https://www.tupianzj.com/meinv/mm/meizitu/)import requestsimport reimport osimport time# 伪装 用于可以伪装成浏览器。headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3原创 2020-09-23 03:30:23 · 2191 阅读 · 0 评论 -
Python使用BeautifulSoup4第三方库处理VOC2007数据的xml格式文件
代码: bs4库处理xml文件.pyfrom bs4 import BeautifulSoup# xmlPath = r'000020.xml' # 内容相对少xmlPath = r'000005.xml' # 内容相对多with open(xmlPath,"r") as f: text = f.read()# print(text)soup = BeautifulSoup(text,'xml')print(type(soup))print("----"*10)difficu原创 2020-11-14 08:57:47 · 239 阅读 · 0 评论 -
Python利用第三方库lxml处理xml文件
lxml处理xml文件代码:from lxml import etree# xmlPath = r'000020.xml' # 内容相对少xmlPath = r'000005.xml' # 内容相对多html = etree.parse(xmlPath, etree.HTMLParser())# result = etree.tostring(html)# print(result.decode('utf-8'))# print(type(result)) # <class 'by原创 2020-11-14 07:22:00 · 684 阅读 · 0 评论 -
Python中的re标准库利用正则表达式处理VOC2007标注数据的xml文件
代码:正则表达式处理xml文件.py# xml文件内容如下:"""<annotation> <folder>VOC2007</folder> <filename>000005.jpg</filename> <source> <database>The VOC2007 Database</database> <annotation>PASCAL VOC2007</annota原创 2020-11-14 04:52:33 · 137 阅读 · 0 评论 -
python利用tkinter制作GUI界面,爬取淘票票国庆中秋双节时下热映电影
spider4taopiaopiao.py爬取网站电影排行榜import requestsimport reimport osimport timeimport jsondef mySpider(): # 伪装 用于可以伪装成浏览器。 headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrom原创 2020-10-07 09:26:15 · 1124 阅读 · 1 评论 -
百度搜索关键词自动提交
代码搜索关键词自动提交#e24.1AutoKeywordSearch.pyimport requestsfrom bs4 import BeautifulSoupimport reimport jsondef getKeywordResult(keyword): url = 'http://www.baidu.com/s?wd='+keyword try: r = requests.get(url, timeout=30) r.raise_fo原创 2020-09-27 00:55:15 · 1222 阅读 · 0 评论 -
爬取上海交通大学软科中国大学排名
下面展示 代码爬取上海交通大学软科中国大学排名import requestsfrom bs4 import BeautifulSoupif __name__ == "__main__": destinationPath = "html信息.txt" allUniv = [] # headers={'User-Agent':'Mozilla/5.0'} url= 'http://www.shanghairanking.cn/rankings/bcur/原创 2020-09-26 21:24:31 · 1318 阅读 · 6 评论