- 博客(17)
- 资源 (51)
- 收藏
- 关注
原创 2-文件的读写
#include <iostream> #include <fstream> using namespace std; void main() { ofstream in; in.open("com.txt",ios::trunc); //ios::trunc表示在打开文件前将文件清空,由于是写入,文件不存在则创建 int i;...
2018-07-24 20:06:00 62
原创 16-多线程爬取糗事百科(python+Tread)
https://www.cnblogs.com/alamZ/p/7414020.html 课件内容 #_*_ coding: utf-8 _*_ ''' Created on 2018年7月17日 @author: sss function: 利用多线程爬取糗事百科页面 ''' #使用线程库 import threading #队列 from queue import Queue ...
2018-07-17 20:03:00 137
原创 15-糗事百科(python+xpath)
爬取糗事百科的段子: 1.用xpath分析首要爬去内容的表达式; 2.用发起请求,获得原码; 3.用xpath分析源码,提取有用信息; 4.由python格式转为json格式,写入文件 #_*_ coding: utf-8 _*_ ''' Created on 2018年7月17日 @author: sss function: 爬取糗事百科里面的内容 ''' import requ...
2018-07-17 12:44:00 81
原创 14-python登入教务网(python+bs4)
用request先得到到session对象,用其去放送请求,会自动保存cookie。 模拟有验证码的登入步骤: 1.发送请求登入页面; 2.分析验证码的地址,以及要将登入请求发往的地址(可以先输入错的密码登入一次,抓包获取发送地址) 3.将返回的验证码存入文件,读取验证码,手动输入; 4.整合所有数据以及验证码,发往登入验证界面; 5.登入成功后即可访问只有登入后的界面了,比如个人主页...
2018-07-16 21:31:00 176
原创 13-爬取百度贴吧中的图片(python+xpath)
通过xpath分析页面,爬取页面中的图片: #_*_ coding: utf-8 _*_ ''' Created on 2018年7月15日 @author: sss function: 使用xpath还处理爬取的数据 ''' from lxml import etree import urllib from pip._vendor.distlib.compat ...
2018-07-15 13:34:00 75
原创 12-在eclipse上安装lxml
1.可用easy_install安装方式,也可以用pip的方式: pip install lxml 2.安装完毕:写代码导包时提示错误,这是需要配置一下eclipse,是因为它没有更新导入的包,所以需要将原来的删了, 重新导入: ...
2018-07-15 10:47:00 88
原创 11-内涵段子-爬虫(python+正则)
爬取内涵段子,使用正则进行简单处理: #_*_ coding: utf-8 _*_ ''' Created on 2018年7月14日 @author: sss function:爬去内涵段子(静态网页抓取) ''' import requests import urllib import re import random from Tools.scripts.treesync impo...
2018-07-15 08:56:00 84
原创 10-python中的requests应用
使用request方便: #_*_ coding: utf-8 _*_ ''' Created on 2018年7月14日 @author: sss ''' import requests import json #根据协议类型选择不同的代理 proxies = { "http" : "118.190.95.43:9001", "https": "49.7...
2018-07-14 19:34:00 84
原创 9-python 的ProxyHandler处理器(代理设置)
ProxyHandler处理器(代理设置) 使用代理IP,这是爬虫/反爬虫的第二大招,通常也是最好用的。 很多网站会检测某一段时间某个IP的访问次数(通过流量统计,系统日志等),如果访问次数多的不像正常人,它会禁止这个IP的访问。 所以我们可以设置一些代理服务器,每隔一段时间换一个代理,就算IP被禁止,依然可以换个IP继续爬取。 #_*_ coding: utf-8 _*_ ''' C...
2018-07-14 13:09:00 132
原创 8-python模拟登入(无验证码)
方式: 1.手动登入,获取cookie 2.使用cookielib库 和 HTTPCookieProcessor处理器 #_*_ coding: utf-8 _*_ ''' Created on 2018年7月13日 @author: sss ''' import urllib.request import urllib.request import urllib.parse imp...
2018-07-14 13:03:00 425
原创 7-python自定义opener
Handler处理器 和 自定义Opener opener是 urllib2.OpenerDirector 的实例,我们之前一直都在使用的urlopen,它是一个特殊的opener(也就是模块帮我们构建好的)。 但是基本的urlopen()方法不支持代理、cookie等其他的HTTP/HTTPS高级功能。所以要支持这些功能: 使用相关的Handler处理器来创建特定功能的处...
2018-07-14 13:00:00 80
原创 6-豆瓣剧情排行爬虫
爬去豆瓣排行 #_*_ coding: utf-8 _*_ ''' Created on 2018年7月13日 @author: sss 功能:爬取豆瓣剧情排行榜的json数据 ''' import urllib.request import urllib.response import urllib.parse import random url = "https://movie.d...
2018-07-13 10:59:00 76
原创 5-有道爬虫demo(post)
爬取有道页面,实现中文翻译成英文: #_*_ coding: utf-8 _*_ ''' Created on 2018-7-12 @author: sss 功能:爬取有道翻译 ''' import urllib import urllib.request import urllib.parse import urllib.response from pip._vendor.urllib...
2018-07-12 23:59:00 92
原创 3-百度贴吧爬虫
被写文件坑了一晚上,因为自己写了writeFile(),但是调用的是WriteFile()刚好python里面有WriteFile()所以刚好不报错!!!!! #_*_ coding: utf-8 _*_ ''' Created on 2018 7月12号 @author: sss 类型:get请求 功能:爬取百度贴吧的页面,可以分页 ''' from pip._vendor.distli...
2018-07-12 20:45:00 60
原创 2-python代码坑点
#切片: # L = ['aaa', 'bbb', 'ccc', 'ddd'] # print(L[1 : 3]) #取[1, 3):下标 # L = list(range(100)) # print(L[:10]) # print(L[-10:]) # # print(L[2:10:4]) #从2开始取,步长为4,小于10 # # [2, 6] # print('abcdefg...
2018-07-11 11:37:00 67
基于PCA的指纹识别(matlab).rar
2020-02-08
动态编程语言(python)大作业-记忆翻牌游戏.rar
2019-12-16
youdaoHelper成品.rar
2019-12-16
ssm部分代码自动构建.rar
2019-12-15
jdk1.8及cscp互传命令.zip
2019-11-13
Linux与windows文件互传pscp
2019-07-03
wxFormBuilder_构建界面的一个简单实例
2019-05-06
java实现的记单词软件及网站-完整的代码
2024-02-16
QT实现地炸弹人游戏(Bomber Man)-包含了完整的代码和文档
2024-02-16
使用QT实现地弹球游戏最终版
2024-02-16
c语言学生管理系统.rar
2020-06-26
Matlab迷宫游戏.rar
2020-05-21
简陋纯c语言和c++两个版本的地铁购票、路线规划系统.rar
2020-05-21
javaweb网上购物网站(后台+前端).rar
2020-04-08
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人