新手入门
不悔当初
严于律己
展开
-
python笔记--爬虫总结
熟悉了爬虫的整个流程:请求——>解析网页获取数据——>存储。(1)请求:简单的UA伪装,代理IP的使用,编码检测,异常处理,断线重连,模拟登陆,验证码问题。(2)解析网页获取数据:BeautifulSoup库,re模块,Selenium的简单方法(3)存储:之后...原创 2018-09-20 10:55:44 · 178 阅读 · 0 评论 -
python笔记--多进程与多线程
import timeimport requestsimport currentimport concurrentfrom concurrent import futuresimport pandas as pdimport threadingfrom multiprocessing import Pool# 装饰器,打印函数的执行时间def gettime(func): ...原创 2018-09-15 11:31:21 · 121 阅读 · 0 评论 -
python笔记--验证码问题
解决验证码问题的方法:第一种是提取验证码的地址,下载验证码到本地,手动输入后再post登陆。第二种是通过一些验证码识别库进行识别。第三种是云打码平台,需付费。1.手动输入 有了验证码之后,表单内容会有变化import re# pickle是对cookie文件进行dump,load操作import pickleimport requestsfrom PIL import Ima...原创 2018-09-15 10:40:54 · 477 阅读 · 0 评论 -
python笔记--模拟登陆
浏览器通过cookie的方式来检验用户的登陆状态。1.可以通过从浏览器复制cookie到headers来进行模拟登陆。cookie的获取和之前的UA获取方式一样。import requestsfrom fake_useragent import UserAgentmycookie_from_copy = ' '#这里填上从网页复制来的cookie信息ua = UserAgent(...原创 2018-09-11 09:49:30 · 212 阅读 · 0 评论 -
指派问题——匈牙利Hungary算法(用python实现)
注:昨天刚刚看了关于python的关于数组的简单操作,就将匈牙利算法用python实现了以下。其中可能有很多点可以用python中数组本身属性实现,但由于初学,所以不熟悉而导致步骤繁琐的望指出~1.匈牙利算法的简单例子 (1)矩阵所表示的就是从A点到B所要付出的代价,一般目标函数都是使得代价最小,那么匈牙利算法就是一种精确算法,求解在多个出发点和多个目标点的情况下得出最小代价。约束是一个出发...原创 2018-09-13 12:05:40 · 6626 阅读 · 4 评论 -
python笔记--正则表达式
正则表达式(regular expression)是提取数据时常用的方法,其解析网页的速度比BeautifulSoup库更快。python提供了相关re。'''用于提取百度首页中的与百度相关的链接及名称'''import reimport requestsfrom fake_useragent import UserAgenturl = 'https://www.baidu.co...原创 2018-09-10 11:15:33 · 233 阅读 · 0 评论 -
python--笔记:数据的获取
1.简介 –网络爬虫(web crawler)是万维网浏览网页并按照一定规则提取信息的脚本或者程序,利用爬虫爬取信息就是模拟这个过程。用脚本模拟浏览器,向网站服务器发出浏览网页内容的请求,在服务器检验成功后,返回网页信息,并提取自己需要的数据,最后将提取到的数据保存。使用requests库发起请求服务器检验请求的原因:大量爬虫请求会造成服务器压力过大,可能使得网页响应速度变慢。所有网站一...原创 2018-09-03 14:52:04 · 391 阅读 · 0 评论 -
python笔记--异常处理
1.狭义的异常处理 当一次请求多个网页时,如果其中一个网页出错,那么整个程序就会终止,造成其他网页都无法完成请求。所以需要通过异常处理将可能出错的网页进行处理,以至于其他网页能被请求。import requestsurls = ["http://wwww.baidussss.com", "http://news.baidu.com", "http://datahonor.com/4...原创 2018-09-04 11:21:20 · 207 阅读 · 0 评论 -
提醒⏰
!!!!!在刷题的时候发现,hash表的方法经常被用到,但是我好像对此一无所知,所以我打算好好学习了解一下这个点。还有C中的malloc函数不熟悉,还需要去补充malloc函数与返回值是指针的函数。...原创 2018-10-08 09:42:49 · 265 阅读 · 0 评论