qq_37907239-CSDN博客

原创 Task04：大作业：腾讯新闻爬取；拔高：知乎爬虫

了解ajax加载通过chrome的开发者工具，监控网络请求，并分析用selenium完成爬虫具体流程如下：用selenium爬取https://news.qq.com/ 的热点精选热点精选至少爬50个出来，存储成csv 每一行如下标号（从1开始）,标题,链接,…（前三个为必做，后面内容可以自己加） # 用selenium爬取https://news.qq.com/ 的热点精选 i...

2020-04-27 20:30:18 340

原创 Task03：session和cookie、代理、selenium自动化

session和cookie 静态网页静态网页就是我们上一篇写的那种 html 页面，后缀为 .html 的这种文件，直接部署到或者是放到某个 web 容器上，就可以在浏览器通过链接直接访问到了，常用的 web 容器有 Nginx 、 Apache 、 Tomcat 、Weblogic 、 Jboss 、 Resin 等等，很多很多。举个例子：https://desmonday.github....

2020-04-25 16:56:47 153

原创 Task02：bs4、xpath和正则表达式

Beautiful Soup库入门 Beautiful Soup库是解析、遍历、维护“标签树”的功能库，对应一个HTML/XML文档的全部内容 BeautifulSoup类的基本元素: - Tag 标签，最基本的信息组织单元，分别用<>和</>标明开头和结尾； - Name 标签的名字，<p>…</p>的名字是'p'，格式：<tag>.n...

2020-04-23 20:19:59 194

原创 Task01：html等有关知识，api使用，request-get使用拔高部分：js

HTTP HTTP是一个客户端（用户）和服务器端（网站）之间进行请求和应答的标准。通过使用网页浏览器、网络爬虫或者其他工具，客户端可以向服务器上的指定端口（默认端口为80）发起一个HTTP请求。这个客户端成为客户代理（user agent）。应答服务器上存储着一些资源码，比如HTML文件和图像。这个应答服务器成为源服务器（origin server）。在用户代理和源服务器中间可能存在多个“中间层”...

2020-04-20 20:37:57 207

原创数据的探索性分析（EDA）

数据的探索性分析（EDA）对于一个数据挖掘任务而言，基本的套路都是从数据分析开始。一次完整的数据分析流程参考如下：导入库 import sys import gc import pandas as pd #显示所有列 pd.set_option(‘display.max_columns’, None) #显示所有行 pd.set_option(‘display.max_rows’, None)...

2020-03-24 19:07:41 593

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 Task04：大作业：腾讯新闻爬取； 拔高：知乎爬虫

原创 Task03：session和cookie、代理、selenium自动化

原创 Task02：bs4、xpath和正则表达式

原创 Task01：html等有关知识，api使用，request-get使用 拔高部分：js

原创 数据的探索性分析（EDA）

空空如也

空空如也

原创 Task04：大作业：腾讯新闻爬取；拔高：知乎爬虫

原创 Task01：html等有关知识，api使用，request-get使用拔高部分：js

原创数据的探索性分析（EDA）