- 博客(15)
- 资源 (1)
- 收藏
- 关注
原创 爬取你所想的图片
数据在网页源代码中用正则案例一import urllib.requesturl = 'https://tieba.baidu.com/p/5734214281'response=urllib.request.urlopen(url)html=response.read()html=html.decode('utf-8')html运行截图如下:import rereg=r's...
2020-03-02 10:31:34 413
原创 协同过滤算法
关于相似度的三种计算from random import sampleimport jsonfrom math import sqrtimport timefrom collections import defaultdict#曼哈顿 欧式 cos 三种距离users={"Angelica":{"星际穿越":3.5,“放牛班的春天”:2.0, ...
2020-03-04 18:16:17 265
原创 关于三级菜单的练习
example1:menu={ '北京':{ '朝阳':{ '国贸':{}, '望京':{}, '三里屯':{}, }, '昌平':{}, '海淀':{}, }, '上海':{}, '山东':{},}while True: ...
2020-03-04 15:43:19 178
原创 关于线程池,守护线程,阻塞线程的理解
from time import ctime,sleepimport threading'''def music(func): for i in range(2): print("I was listening to %s.%s"%(func,ctime())) sleep(1)def movie(func): for i in range(...
2020-03-03 18:08:22 620
原创 文本分析
jieba库jieba是优秀的中文分词第三方库 ,具体使用方法如下import jiebatest_str=' 新华网东京记者据日本共同社28日报道'test_str=test_str.strip()result=jieba.cut(test_str,cut_all=False)#print(result)打印为可迭代的生成器print(' '.join(result))运行...
2020-03-02 15:04:19 211
原创 selenium实例
selenium之定位知识from selenium import webdriverimport time#初始化一个浏览器对象driver=webdriver.Chrome()driver.get('http://www.baidu.com')a=driver.find_element_by_id('kw')a.send_keys('selenium')driver.find_...
2020-03-02 14:07:56 243
原创 beautifulsoup实例
爬虫之旅游网案例import requestsfrom bs4 import BeautifulSoupurl='http://www.cntour.cn/'strhtml=requests.get(url)#print(strhtml.text)soup=BeautifulSoup(strhtml.text,'lxml')data=soup.select("#main > ...
2020-03-02 13:46:11 289 1
原创 抓包之post请求
爬虫之有道翻译post请求需要有请求头和表单数据import requestsimport jsonword='我们都是追梦人'url='http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule'headers={'Accept':'application/json, text/javascript,...
2020-03-02 13:27:34 3424
原创 抓包之get请求
爬虫之淘宝抓包法案例一(数据格式处理)import urllib.request#url = 'https://image.baidu.com/search/detail?ct=503316480&z=0&ipn=d&word=%E9%9F%A9%E5%95%86%E8%A8%80%E5%A3%81%E7%BA%B8&hs=2&pn=0&spn...
2020-03-02 11:21:22 1977
原创 git的拉取和推送
一.git 拉取远程分支到本地步骤:1.新建一个空文件夹,文件夹名为hhhh2.在该位置进入git命令并初始化勾选隐藏的项目:此时本地出现了git文件夹,为本地仓库3.自己要与origin master建立连接git remote add origin +远程仓库链接远程仓库链接如下图:输入命令:4.把远程分支拉到本地git fetch origin dev (d...
2019-11-22 00:01:39 1855
原创 django中url的规则
1.正则式表达此为正则表达式,^表示以articles开头,$表示以[0-9]{4}/(比如2019)结尾,类似的还有如下:2.匹配顺序django的urls文件里url有很多,匹配规则的顺序是从上往下找3.参数名字不固定([0-9]{4})加了括号后,可表示一个形参变量传到视图函数里,此时浏览器响应结果如下4.search匹配模式,有名分组(此时参数名字固定)首先需要了解...
2019-11-15 23:26:39 543
原创 线程及相关定义理解
一般并发的手段有采用多进程和多线程。但线程比进程更轻量化,系统开销一般也更低,所以大家更倾向于用多线程的方式处理并发的情况。Python 提供多线程编程的方式。Python 实现多线程编程需要借助于 threading 模块1.定义理解并发只有一个cpu并行多个内核(多个cpu)真正的多个任务同时执行进程当成一个py文件线程文件里的一堆指令集和pyt...
2019-11-15 14:44:40 97
原创 python内置函数
python函数split和strip的区别string = “www.gziscas.com.cn”1.以’.'为分隔符print(string.split(’.’))[‘www’, ‘gziscas’, ‘com’, ‘cn’]2.分割两次print(string.split(’.’,2))[‘www’, ‘gziscas’, ‘com.cn’]Python strip() 方...
2019-11-15 10:02:56 148
原创 ubuntu下redis安装
1.安装1.apt-get update#更新下载源apt-get install redis-serverredis-server2.客户端连接测试redis-cliredis 127.0.0.1:6379>pingPONG以上说明我们已经成功安装了redis3. 设置1.查找到redis.conf文件 进行修改2.设置远程连接更改配置文件中bind 127...
2019-11-15 09:47:59 86
python内置函数 具体使用方法和说明(1).pdf
2019-11-15
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人