- 博客(4)
- 收藏
- 关注
原创 python网络爬虫(四)
爬取腾讯新闻热点精选腾讯新闻的 url:https://news.qq.com/import timefrom selenium import webdriverfrom bs4 import BeautifulSoupbrowser=webdriver.Chrome(r'D:\***\chromedriver.exe')browser.get('https://news.qq.c...
2020-04-27 18:56:50 166
原创 python网络爬虫(三)
python爬虫——seleniumselenium的介绍selenium是一个Web的自动化测试工具,最初是为网址自动化测试开发的,selenium可以直接运行在浏览器上,它支持所有主流的浏览器(包括phantomJS这些无界面的浏览器),可以接受指令,让浏览器自动加载页面,获取需要的数据,甚至页面截图。phantomJS是一个基于Webkit的“无界面”(headless)浏览器,它会把...
2020-04-25 19:20:00 243
原创 python网络爬虫(二)
python爬虫——BeautifulSoupBeautifuSoup介绍BeautifuSoup‘美味汤’,他是Python的一个第三方库,它能够对HTML格式进行解析,并且提取相关的信息。Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完...
2020-04-23 20:33:42 689
原创 Python网络爬虫信息(一)
文章目录了解网页学习Python的requests 库使用request爬取网站信息了解网页网页定义网页是一个包含HTML标签的纯文本文件,它可以存放在世界某个角落的某一台计算机中,是万维网中的一“页”,是超文本标记语言格式(标准通用标记语言的一个应用,文件扩展名为.html或.htm)。网页通常用图像档来提供图画。网页要通过网页浏览器来阅读。网页组成页面结构:HTMLHTML是标记...
2020-04-21 20:50:07 256
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人