- 博客(5)
- 收藏
- 关注
原创 Task04:大作业:腾讯新闻爬取; 拔高:知乎爬虫
了解ajax加载通过chrome的开发者工具,监控网络请求,并分析用selenium完成爬虫具体流程如下:用selenium爬取https://news.qq.com/ 的热点精选热点精选至少爬50个出来,存储成csv每一行如下标号(从1开始),标题,链接,…(前三个为必做,后面内容可以自己加)# 用selenium爬取https://news.qq.com/ 的热点精选i...
2020-04-27 20:30:18 332
原创 Task03:session和cookie、代理、selenium自动化
session和cookie静态网页静态网页就是我们上一篇写的那种 html 页面,后缀为 .html 的这种文件,直接部署到或者是放到某个 web 容器上,就可以在浏览器通过链接直接访问到了,常用的 web 容器有 Nginx 、 Apache 、 Tomcat 、Weblogic 、 Jboss 、 Resin 等等,很多很多。举个例子:https://desmonday.github....
2020-04-25 16:56:47 140
原创 Task02:bs4、xpath和正则表达式
Beautiful Soup库入门Beautiful Soup库是解析、遍历、维护“标签树”的功能库,对应一个HTML/XML文档的全部内容BeautifulSoup类的基本元素:- Tag 标签,最基本的信息组织单元,分别用<>和</>标明开头和结尾;- Name 标签的名字,<p>…</p>的名字是'p',格式:<tag>.n...
2020-04-23 20:19:59 176
原创 Task01:html等有关知识,api使用,request-get使用 拔高部分:js
HTTPHTTP是一个客户端(用户)和服务器端(网站)之间进行请求和应答的标准。通过使用网页浏览器、网络爬虫或者其他工具,客户端可以向服务器上的指定端口(默认端口为80)发起一个HTTP请求。这个客户端成为客户代理(user agent)。应答服务器上存储着一些资源码,比如HTML文件和图像。这个应答服务器成为源服务器(origin server)。在用户代理和源服务器中间可能存在多个“中间层”...
2020-04-20 20:37:57 186
原创 数据的探索性分析(EDA)
数据的探索性分析(EDA)对于一个数据挖掘任务而言,基本的套路都是从数据分析开始。一次完整的数据分析流程参考如下:导入库import sysimport gcimport pandas as pd#显示所有列pd.set_option(‘display.max_columns’, None)#显示所有行pd.set_option(‘display.max_rows’, None)...
2020-03-24 19:07:41 579
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人