Christinaaa_-CSDN博客

原创关于爬虫的了解（二）

主要步骤：通过requests库抓到网页源码通过Beautiful Soup从源码中找到并提取数据

2021-10-10 13:38:39 381

通过python打开一个模拟浏览器，并自动访问百度首页from selenium import webdriverbrowser=webdriver.Chrome()browser.get('https://www.baidu.com/')获取网页源代码from selenium import webdriverbrowser=webdriver.Chrome()browser.get('https://www.baidu.com/')#获取网页源代码data=browser.

2021-08-19 16:09:11 116

原创数据结构化——pandas库

通过pandas库可以爬取网页中的表格数据，对数据进行结构化处理，并导出Excel工作簿。read_html()爬取网页表格数据:import pandas as pdurl='http://vip.stock.finance.sina.com.cn/q/go.php/vInvestConsult/kind/dzjy/index.phtml'table=pd.read_html(url)[0]table #这是Jupyter Notebook中打印输出变量的方法DataFrame:D

2021-08-19 16:08:44 283

原创 Beautiful Soup入门

主要流程：导入BeautifulSoup类传递初始化参数，并初始化获取实例对象，操作对象获取解析、提取数据1.初始化Beautiful Soup对象从bs4库导入Beautiful Soup类实例化一个对象。from bs4 import BeautifulSoupsoup = BeautifulSoup(markup, features)在实例化过程中，需要给Beautiful Soup这个类传递两个参数：第一个参数：markup参数解析：被解析的HTML字符串或文

2021-07-24 11:07:32 1086

原创前端学习之HTML学习（一）

（以下为学习笔记记录，学习《Web前端学习笔记：HTML5+CSS3+JavaScript》一书）URL：统一资源定位器，为互联网上标准资源（文件）的地址。URL包含协议、服务器名称（或IP地址）、路径和文件名。例如：http://jwc.gcu.edu.cn/upoadfile/20161011/1476171253139453.xls其中，http是协议，jwc.gcu.edu.cn是服务器名称，upoadfile/20161011/是资源在服务器上的路径，14761712531394

2021-07-23 16:50:14 387

原创关于爬虫的了解（一）

阅读资料写下关于爬虫的笔记：1.爬虫的合法性对于没有设定robots.txt的网站可以通过网络爬虫获取没有口令加密的数据，也就是该网站所有页面数据都可以爬取2.了解网页网页一般由三部分组成，分别是HTML（超文本标记语言）、CSS（层叠样式表）和JScrip（活动脚本语言）（1）HTMLHTML是整个网页的结构，相当于整个网站的框架。带“<”、“>”符号的都是属于HTML的标签，而且标签都是成对出现的。例如：<html>..</html&gt

2021-07-19 15:22:42 131

Christinaaa_的博客

原创关于爬虫的了解（二）

原创 Selenium库

原创数据结构化——pandas库

原创 Beautiful Soup入门

原创前端学习之HTML学习（一）

原创关于爬虫的了解（一）

空空如也

空空如也

原创 关于爬虫的了解（二）

原创 Selenium库

原创 数据结构化——pandas库

原创 Beautiful Soup入门

原创 前端学习之HTML学习（一）

原创 关于爬虫的了解（一）

空空如也

空空如也

原创关于爬虫的了解（二）

原创数据结构化——pandas库

原创前端学习之HTML学习（一）

原创关于爬虫的了解（一）