- 博客(14)
- 资源 (11)
- 收藏
- 关注
转载 python爬取豆瓣影评
看的别人的代码 爬取某部影片的影评 没有模拟登录只能爬6页# -*- encoding:utf-8 -*-import requestsfrom bs4 import BeautifulSoupimport reimport randomimport ioimport sysimport time# 使用session来保存登陆信息s = requests.sess...
2018-10-29 17:37:01 5799
原创 session执行机制
session:会话什么叫一次会话?浏览网站: 开始-关闭购物: 浏览-付款-退出电子邮件:浏览-写邮件-退出一次开始到一次结束的过程叫一次会话session机制:客户端第一次请求服务端时,(jsessionid-sessionid匹配,不过第一次肯定是不成功的,jsessionid根本就没有)服务端会产生一个session对象(用于保存该客户的信息);并且每个session对象 都...
2018-10-28 20:32:10 281
原创 response、请求转发和重定向
response响应对象提供的方法:void addCookie(Cookie cookie); 服务器向客户端增加cookie对象void sendRedirect(String location) throws IOException; 页面跳转的一种方式(重定向)void setContentType(String type); 设置服务端响应的编码(设置服务端tomcat的类型)...
2018-10-28 20:29:54 1040
原创 github上面删除某个仓库的文件夹
由于本人刚接触github时非常sb的在上面写了篇hellomyson的文章(内容啥也没有)现在自己用markdown推博客时候羞愧难当,所以想把它删除。github网站上只能单独删除整个仓库,百度了一下,基本都是要在本地master上面去拉下来,自己又找不到本地的master(忘了)然后反正整了好久,终于发现了入口(我tm要哭了)你先随便选择一个本地文件夹 ,然后git clon...
2018-10-16 21:19:52 304
原创 github代码托管及使用方法
链接:https://www.cnblogs.com/arxive/p/6010781.html更换主题:https://www.jianshu.com/p/06eec1d4397d更换最流行的next主题:https://blog.csdn.net/tx874828503/article/details/515778152018最新版next主题配置及优化:https://blog....
2018-10-15 16:07:45 307 1
原创 我的第一个JSP程序
我tm爽爆<%@ page language="java" contentType="text/html; charset=UTF-8" pageEncoding="UTF-8"%><!DOCTYPE html><html><head><meta charset="UTF-8"&am
2018-10-14 20:50:13 885
原创 在Eclipse中部署tomcat实例
首先需要在Eclipse中配置tomcat运行环境。步骤:在window菜单栏中找到preference栏打开,点击add添加本地下载对应的tomcat版本,添加相应jdk后点击finish。在下方的servers一栏中最开始显示的no servece需要配置。点击去选择你刚选择的tomcat版本。然后选择完成之后是这样:然后右键选择Add and Remove...
2018-10-14 16:38:53 318
原创 python 爬虫实例 爬取中国大学排名
import requestsfrom bs4 import BeautifulSoupimport bs4def gegHTMLText(url): try: r = requests.get(url) r.raise_for_status() r.encoding = r.apparent_encoding ret...
2018-10-13 11:56:21 1510
原创 秦时明月主题 html静态网站 全套源码资源
这是我上学期写的一个静态的html网站。细节方面没深入写,只是写了一个表面的网站,适合萌新练习。展示如下: 下载地址:https://download.csdn.net/download/k_koris/10714671...
2018-10-11 20:41:20 5188
原创 python 理解Beautiful Soup库的基本元素
理解Beautiful Soup的基本元素是理解Beautiful Soup库的基础。首先我们说明一下Beautiful Soup库能干什么。我们以打开html文件为例。任何一组html文件它都是以尖括号为组的标签组织起来的。而这些标签建立起来的东西我们称之为标签树。而Beautiful Soup库是解析,遍历,维护标签树的功能库。标签的具体格式如图:Beautiful...
2018-10-11 20:01:40 354
原创 python 图片基础爬取框架
import requestsimport osurl = "http://image.nationalgeographic.com.cn/2017/0211/20170211061910157.jpg"root = "D://pics//"path = root + url.split('/')[-1]try: if not os.path.exists(root): ...
2018-10-08 14:50:07 341
原创 python 网络爬虫的Robots协议
网络爬虫的尺寸大致分为3种:而第一种大致占到了90%。由于网络爬虫的存在,服务器会因为网络爬虫造成很大的资源开销,比如一个普通人一定时间内访问上十次,而爬虫可能会访问十万次或者百万次。如果一个服务器性能较差,可能会承受不来这个规模的访问。因此网络上对爬虫有一定的制约,对于一些不友好的爬虫,甚至可能会涉及到触犯到法律。 现在一般的网站都会对爬虫做出限制,大致分为两种:现在说一...
2018-10-07 12:53:32 2875
原创 python 爬取网页的通用代码框架
爬取网页的通用代码框架就是一组代码它可以准确的 可靠的爬取网页上的内容。但是这样的语句不是一定成立的,因为网络连接有风险。常见的异常有:而raise_for_status方法可以返回所引发的httperror异常。爬取网页的框架代码如下:import requestsdef getHTMLText(url): try: r = request...
2018-10-06 16:19:43 4980
原创 python Request库的get()方法
1. Request库的get()方法:最通常的方法是通过r=request.get(url)构造一个向服务器请求资源的url对象。这个对象是Request库内部生成的。这时候的r返回的是一个包含服务器资源的Response对象。包含从服务器返回的所有的相关资源。url是什么?url是通过http协议存取资源的一个路径,它就像我们电脑里面的一个文件的路径一样。 ...
2018-10-06 14:28:22 212656 10
Rose在线情缘.zip
2020-03-28
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人