2018年10月_星河呀

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月

转载 python爬取豆瓣影评

看的别人的代码爬取某部影片的影评没有模拟登录只能爬6页# -*- encoding:utf-8 -*-import requestsfrom bs4 import BeautifulSoupimport reimport randomimport ioimport sysimport time# 使用session来保存登陆信息s = requests.sess...

2018-10-29 17:37:01 5799

原创 session执行机制

session：会话什么叫一次会话？浏览网站：开始-关闭购物：浏览-付款-退出电子邮件：浏览-写邮件-退出一次开始到一次结束的过程叫一次会话session机制:客户端第一次请求服务端时，（jsessionid-sessionid匹配，不过第一次肯定是不成功的，jsessionid根本就没有）服务端会产生一个session对象（用于保存该客户的信息）;并且每个session对象都...

2018-10-28 20:32:10 281

原创 response、请求转发和重定向

response响应对象提供的方法：void addCookie(Cookie cookie); 服务器向客户端增加cookie对象void sendRedirect(String location) throws IOException; 页面跳转的一种方式（重定向）void setContentType(String type); 设置服务端响应的编码（设置服务端tomcat的类型）...

2018-10-28 20:29:54 1040

原创 github上面删除某个仓库的文件夹

由于本人刚接触github时非常sb的在上面写了篇hellomyson的文章（内容啥也没有）现在自己用markdown推博客时候羞愧难当，所以想把它删除。github网站上只能单独删除整个仓库，百度了一下，基本都是要在本地master上面去拉下来，自己又找不到本地的master（忘了）然后反正整了好久，终于发现了入口（我tm要哭了）你先随便选择一个本地文件夹，然后git clon...

2018-10-16 21:19:52 304

原创 github代码托管及使用方法

链接：https://www.cnblogs.com/arxive/p/6010781.html更换主题：https://www.jianshu.com/p/06eec1d4397d更换最流行的next主题：https://blog.csdn.net/tx874828503/article/details/515778152018最新版next主题配置及优化：https://blog....

2018-10-15 16:07:45 307 1

原创我的第一个JSP程序

我tm爽爆<%@ page language="java" contentType="text/html; charset=UTF-8" pageEncoding="UTF-8"%><!DOCTYPE html><html><head><meta charset="UTF-8"&am

2018-10-14 20:50:13 885

原创在Eclipse中部署tomcat实例

首先需要在Eclipse中配置tomcat运行环境。步骤：在window菜单栏中找到preference栏打开，点击add添加本地下载对应的tomcat版本，添加相应jdk后点击finish。在下方的servers一栏中最开始显示的no servece需要配置。点击去选择你刚选择的tomcat版本。然后选择完成之后是这样：然后右键选择Add and Remove...

2018-10-14 16:38:53 318

原创 python 爬虫实例爬取中国大学排名

import requestsfrom bs4 import BeautifulSoupimport bs4def gegHTMLText(url): try: r = requests.get(url) r.raise_for_status() r.encoding = r.apparent_encoding ret...

2018-10-13 11:56:21 1510

原创秦时明月主题 html静态网站全套源码资源

这是我上学期写的一个静态的html网站。细节方面没深入写，只是写了一个表面的网站，适合萌新练习。展示如下：下载地址：https://download.csdn.net/download/k_koris/10714671...

2018-10-11 20:41:20 5188

原创 python 理解Beautiful Soup库的基本元素

理解Beautiful Soup的基本元素是理解Beautiful Soup库的基础。首先我们说明一下Beautiful Soup库能干什么。我们以打开html文件为例。任何一组html文件它都是以尖括号为组的标签组织起来的。而这些标签建立起来的东西我们称之为标签树。而Beautiful Soup库是解析，遍历，维护标签树的功能库。标签的具体格式如图：Beautiful...

2018-10-11 20:01:40 354

原创 python 图片基础爬取框架

import requestsimport osurl = "http://image.nationalgeographic.com.cn/2017/0211/20170211061910157.jpg"root = "D://pics//"path = root + url.split('/')[-1]try: if not os.path.exists(root): ...

2018-10-08 14:50:07 341

原创 python 网络爬虫的Robots协议

网络爬虫的尺寸大致分为3种：而第一种大致占到了90%。由于网络爬虫的存在，服务器会因为网络爬虫造成很大的资源开销，比如一个普通人一定时间内访问上十次，而爬虫可能会访问十万次或者百万次。如果一个服务器性能较差，可能会承受不来这个规模的访问。因此网络上对爬虫有一定的制约，对于一些不友好的爬虫，甚至可能会涉及到触犯到法律。现在一般的网站都会对爬虫做出限制，大致分为两种：现在说一...

2018-10-07 12:53:32 2875

原创 python 爬取网页的通用代码框架

爬取网页的通用代码框架就是一组代码它可以准确的可靠的爬取网页上的内容。但是这样的语句不是一定成立的，因为网络连接有风险。常见的异常有：而raise_for_status方法可以返回所引发的httperror异常。爬取网页的框架代码如下：import requestsdef getHTMLText(url): try: r = request...

2018-10-06 16:19:43 4980

原创 python Request库的get()方法

1. Request库的get（）方法：最通常的方法是通过r=request.get（url）构造一个向服务器请求资源的url对象。这个对象是Request库内部生成的。这时候的r返回的是一个包含服务器资源的Response对象。包含从服务器返回的所有的相关资源。url是什么？url是通过http协议存取资源的一个路径，它就像我们电脑里面的一个文件的路径一样。 ...

2018-10-06 14:28:22 212656 10