![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python
愤怒的马农
爬虫,数据分析,机器学习,人工智能
展开
-
python 文件/图片上传 boundary=----WebKitFormBoundary.....
python 图片/文件上传原创 2023-06-16 16:47:39 · 3734 阅读 · 2 评论 -
Anaconda 安装 和 jupyter
重点说下,其他点下一步就好安装完后界面点击进入第一个 open terminal 进入黑窗口 输入如下命令 创建虚拟环境 ai_courseconda create -n ai_course python=3.7 如有报错 CondaHTTPError: HTTP 000 CONNECTION FAILED for url 。。。。。。1 conda config --show #全部显示2 conda config --show channels #...原创 2021-10-22 14:19:36 · 4312 阅读 · 0 评论 -
机器学习实战——决策树
什么是决策树?决策树算法是一种归纳分类算法,它通过对训练集的学习,挖掘出有用的规则,用于对新集进行预测。决策树算法采用树形结构,自顶向下递归方式构造决策树决策树由下面几种元素构成:根节点:包含所有的样本; 内部节点:对应样本特征属性; 分支:样本测试的结果; 叶子节点:代表决策的结果。如何构造决策数?下图是关于判断猫咪是否是哺乳动物的决策树。1.构造什么是构造呢?构造就是生成一棵完整的决策树。简单来说, 构造的过程就是选择什么属性作为节点的过程 ,那么...原创 2021-10-20 14:35:36 · 5330 阅读 · 0 评论 -
python中列表嵌套字典/列表排序,字典排序,列表排序。
列表排序列表嵌套字典/列表排序 使用lambda# 列表内多层嵌套,字典和列表list_num = [ {'name': '中国', 'uid': 10003, 'extinfo': {'tier_index': [0, 4]}}, {'name': '美国', 'uid': 10001, 'extinfo': {'tier_index': [1, 5]}}, {'name': '日本', 'uid': 10005, 'extinfo': {'tier_inde...原创 2021-08-27 18:37:29 · 5022 阅读 · 0 评论 -
python 爬虫获取,百度风云榜股票数据,保存csv格式
先看看执行结果同路径下会有个 “风云榜.csv” 文件,下面是文件内容下面是完整代码,复制粘贴就可以运行。有问题请留言。# -*- coding:utf-8 -*import requests, csvfrom lxml import etreeclass baidu(object): def __init__(self): self.urls = ['http://top.baidu.com/buzz?b=274&c=1...原创 2021-08-24 12:56:55 · 4007 阅读 · 0 评论 -
速卖通,aliexpress,关键词搜索,获取商品数据,销量,评价,价格,上架时间,图片,openpyxl 写入excel中
咋们先来看看运行结果下面来上代码,完整代码,复制就可以运行的。不懂得或报错的,请留言。# -*- coding:utf-8 -*import requestsimport reimport osimport jsonfrom fake_useragent import UserAgentimport openpyxlfrom openpyxl.drawing.image import Imagefrom lxml import etreefrom da...原创 2021-04-16 18:39:33 · 5931 阅读 · 24 评论 -
openpyxl 下载图片并保存excel里
import openpyxlfrom openpyxl.drawing.image import Imagefrom fake_useragent import UserAgentimport osimport requestsfrom hashlib import md5# 图片保存地址file_path = r"E:\PyCharm\\"# 表格的行excel_key = 1imgs = ["图片链接列表"]for img in imgs: wb = openpyxl..原创 2021-01-24 16:09:38 · 5367 阅读 · 4 评论 -
使用FastDFS搭建图片服务器 遇到很多坑
当ip变化了,将tracker和storage重启:/etc/init.d/fdfs_trackerd start和/etc/init.d/fdfs_storaged start下载并安装FastDFS依赖包libfastcommon[root@fastdfs-storage tools]# wget https://codeload.github.com/happyfish100/libfastcommon/zip/master[root@fastdfs-storage tools]#...原创 2020-09-06 11:59:40 · 5389 阅读 · 0 评论 -
python 将数据, 文章,网站页面,通过 pdfkit 生成PDF文档
wkhtmltopdf下载地址# -*- coding:utf-8 -*-import pdfkitpath_wk = r'C:\Program Files\wkhtmltopdf\bin\wkhtmltopdf.exe' # 改成自己安装的位置config = pdfkit.configuration(wkhtmltopdf=path_wk)pdfkit.from_string("字符串", 'jmeter_下载文件1.pdf', configuration=config) #原创 2020-08-21 17:00:14 · 5254 阅读 · 1 评论 -
python 爬虫 wxpy 获取微信好友的头像和昵称
from wxpy import *import osdef weixin_file_path(): avater_dir = os.path.join(os.getcwd(), 'weixin') if not os.path.exists(avater_dir): os.mkdir(avater_dir) return avater_dirdef save_wx_avater(avater_dir): bot = Bot(cache_pat.原创 2020-08-14 19:43:19 · 5965 阅读 · 3 评论 -
Python 模拟登录淘宝
看了下网上有很多关于模拟登录淘宝,但是基本都是使用scrapy、pyppeteer、selenium等库来模拟登录,但是目前我们还没有讲到这些库,只讲了requests库,那我们今天就来使用requests库模拟登录淘宝!讲模拟登录淘宝之前,我们来回顾一下之前用requests库模拟登录豆瓣和新浪微博的过程:这一类模拟登录是比较简单的登录,只需要在请求登录时将用户名和密码上传验证通过就成功了,...转载 2019-11-08 16:41:59 · 16454 阅读 · 2 评论 -
Python - 实现贪吃蛇游戏
import pygameimport sysimport random# 全局定义SCREEN_X = 600SCREEN_Y = 600# 蛇类# 点以25为单位class Snake(object): # 初始化各种需要的属性 [开始时默认向右/身体块x5] def __init__(self): self.dirction = pyg...原创 2019-10-15 13:37:45 · 5907 阅读 · 0 评论 -
通过bat 快速添加 Python 环境变量
@echo off::设置要永久加入到path环境变量中的路径set My_PATH=C:\Users\Administrator\AppData\Local\Programs\Python\Python37;C:\Users\Administrator\AppData\Local\Programs\Python\Python37\Scripts set PATH=%PATH%;%M...原创 2019-09-30 17:57:39 · 7767 阅读 · 0 评论 -
Python - 爬虫 使用scrapy框架获取豆瓣图片信息
下面是主代码逻辑,非常简单# coding:utf-8import jsonimport scrapyfrom ..items import DouyuItemclass DouyuSpider(scrapy.Spider): name = "douyu" allowed_domains = ["douyucdn.cn"] base_u...原创 2019-09-30 17:44:44 · 5873 阅读 · 0 评论 -
Python - 获取亚马逊 自拍杆美国市场排名
通过在亚马逊美国站获取数据,再将英文数据转换中文,最后写入excle表格中# -*- coding: utf-8 -*-from urllib import request, parseimport requests, time, re, xlrd, json, pymssql, datetimefrom bs4 import BeautifulSoupfrom lxml impo...原创 2019-09-30 17:21:45 · 6068 阅读 · 0 评论 -
Python 获取本月的周一所有日期
from datetime import date, timedelta, datetimeimport calendarcal = calendar.month(2019, 8)print(cal)m = datetime.now().monthy = datetime.now().yearndays = (date(y, m + 1, 1) - date(y, m, 1))...原创 2019-08-28 18:31:08 · 9290 阅读 · 0 评论 -
获取本电脑外网IP和内网IP
# -*- coding:utf-8 -*-import requests, json, socket"""获取外网IP"""my_ip = requests.get('http://ip.42.pl/raw').textprint("11",my_ip)my_ip = json.loads(requests.get('http://jsonip.com').text)['ip'...原创 2019-08-14 19:28:18 · 7242 阅读 · 0 评论 -
python os.path.join() , os.path.basename() , os.path.dirname() ,os.path.split() 使用方法
# -*- coding:utf-8 -*import osPath1 = 'Python'Path2 = 'Java'Path3 = 'C++'Path10 = Path1 + Path2 + Path3Path20 = os.path.join(Path1, Path2, Path3)print('Path1 = ', Path10)print('Path1 = '...原创 2019-06-29 17:40:26 · 8998 阅读 · 0 评论 -
python 链接SQL server数据库 增删改查,操作,从表格读取数据
链接数据库# -*- coding:utf-8 -*-import pymssqlimport xlrd# 数据库远程连接conn = pymssql.connect(host="地址:1433", user="用户名", password="密码", database="数据库名",charset="UTF8")# 使用cursor()方法获取操作游标sql = """selec...原创 2019-06-12 19:54:43 · 7593 阅读 · 0 评论 -
Python 使用selenium爬取房天下网站,新房房源详情信息
from selenium import webdriverfrom selenium.webdriver.chrome.options import Optionsfrom time import sleepimport jsonfrom datetime import datetimeimport reclass Dpspider(object): def __init...原创 2019-04-12 17:13:46 · 7189 阅读 · 0 评论 -
python 爬虫,获取携程网站机票数据
爬取携程机票数据from prettytable import PrettyTableimport requestsimport jsondef xiecheng(dcity, acity, date): date = date[0:4] + '-' + date[4:6] + '-' + date[6:8] headers = { "User...转载 2019-04-04 21:51:49 · 13554 阅读 · 7 评论 -
python 使用requests模块,爬取百度贴吧内容
爬取百度贴吧import requestsfrom lxml import etreeimport jsonclass TiebaSpider(object): def __init__(self,name): self.name = name self.url = 'http://tieba.baidu.com/mo/q----,sz@320_2...原创 2019-03-12 21:07:40 · 8268 阅读 · 2 评论 -
Python 使用selenium爬取方天下,房源评论信息
使用浏览器爬取房天下,房源评论原创 2019-03-04 19:40:27 · 7165 阅读 · 0 评论 -
python爬虫验证码识别模块tesseracr与pytesseract
由于tesserocr在windows环境下会出现各种不兼容问题,并且与pycharm虚拟环境不兼容等问题,所以在windows系统环境下,选择pytesseract模块进行安装,如果实在要安装请使用whl文件安装或者使用conda安装pip install pytesseract如果在pytesseract运行是找不到tesseract解释器,这种情况一般是在虚拟环境下会发生,我们需要将...原创 2019-03-14 16:20:04 · 8856 阅读 · 0 评论 -
Python 使用selenium爬取房天下网站,房源动态信息
在这里插入代码片什么是Seleniumselenium 是一套完整的web应用程序测试系统,包含了测试的录制(selenium IDE),编写及运行(Selenium Remote Control)和测试的并行处理(Selenium Grid)。Selenium的核心Selenium Core基于JsUnit,完全由JavaScript编写,因此可以用于任何支持JavaScript的浏览器...原创 2019-03-05 19:14:31 · 8071 阅读 · 0 评论 -
正则表达式-匹配中英文、字母和数字,手机号,电话号码, 身份证,邮编
在做项目的过程中,使用正则表达式来匹配一段文本中的特定种类字符,是比较常用的一种方式,下面是对常用的正则匹配做了一个归纳整理。1、匹配中文:[\u4e00-\u9fa5]2、英文字母:[a-zA-Z]3、数字:[0-9]4、匹配中文,英文字母和数字及下划线:^[\u4e00-\u9fa5_a-zA-Z0-9]+$同时判断输入长度:[\u4e00-\u9fa5_a-zA-Z0-9...转载 2019-01-20 16:52:54 · 7861 阅读 · 1 评论 -
使用scrapy框架爬取链家网站租房信息
# 这是主代码,其他代码可以去GitHub查看原创 2018-11-30 10:31:02 · 5428 阅读 · 0 评论 -
Numpy和Pandas的区别
一、区别Numpy:是数值计算的扩展包,它能高效处理N维数组,复杂函数,线性代数.Panadas:是做数据处理。市python的一个数据分析包,二、简介1)NumPy:N维数组容器Numpy专门针对ndarray的操作和运算进行了设计,所以数组的存储效率和输入输出性能远优于Python中的嵌套列表,数组越大,Numpy的优势就越明显。Numpy系统是Python的一种开源的数值计算扩展。...原创 2019-04-27 18:00:54 · 47173 阅读 · 5 评论 -
Pycharm 常用快捷键
快捷键 作用 备注 ctrl + win + 空格 自动提示并导包 连按两次 ctrl + alt + 空格 自动提示并导包 连按两次 Alt + Enter 快速导包...原创 2019-04-17 21:11:27 · 7035 阅读 · 0 评论 -
Python 读取,写入,追加写入Excel文件以及通过pandas读取数据 将图片写入Excel文件
1.读取xlsx文件import xlrd# 打开文件workbook = xlrd.open_workbook(r'D:\PycharmProjects\reptile\XLSX 工作表 .xlsx')# 获取所有sheetprint(workbook.sheet_names()) # ['sheet1', 'sheet2']# 根据sheet索引或者名称获取sheet内容sh...原创 2019-05-18 15:06:37 · 17840 阅读 · 0 评论 -
python 爬虫学习方向 与 思维导图
原创 2019-05-12 18:22:18 · 7497 阅读 · 0 评论 -
python 日期 datetime和timedelta 使用方法
from datetime import datetimefrom datetime import timedelta# 1) 获取当前日期和时间today = datetime.today() # 返回当前时间时分秒都为0print("当前时间")print(today)today1 = datetime.now() # 返回当前日期和时间print( today1 )...原创 2019-05-12 17:01:26 · 62666 阅读 · 2 评论 -
pip is not an internal or external command how to solve & pip 不是内部或外部命令 ------解决方法 顺便把pip升级
首先ptyhon已下载好 当用pip 下载时报错,是因为pip没有添加环境变量里,和升级pip,下面教你操作方法找到python安装的路径升级 pip原创 2019-05-16 12:13:40 · 7129 阅读 · 0 评论 -
Python 使用selenium爬取58网站,租房详情信息
58租房简单的实现from selenium import webdriverfrom selenium.webdriver.chrome.options import Optionsimport jsonclass ZufangSpider(object): def __init__(self): # 创建浏览器驱动对象 self.dr...原创 2019-05-05 16:40:51 · 7424 阅读 · 0 评论 -
python爬虫抓取,免费高匿快代理 IP
直接上代码了,没什么解释的 每步都有注释的 复制粘贴就可以用了.不能运行直接回复"代码" 给你源码import requestsfrom lxml import etreeimport jsonclass XiciProxiesSpider(object): def __init__(self): self.num = 1 self.s...原创 2019-05-03 09:49:45 · 12626 阅读 · 6 评论 -
使用scrapy框架实现,房天下网站全站爬取,详情,动态,评论,户型,图片.
scrapy 实现代码,代码有点多,没有优化,,下面有链接,不懂得留言 Github全部代码,https://github.com/Agile929/scrapy_fang# -*- coding: utf-8 -*-import scrapy, jsonimport mathfrom lxml import etreefrom ..items import Dat...原创 2019-04-15 11:56:14 · 7771 阅读 · 8 评论 -
Linux,操作系统常见操作及命令
Linux操作系统1. 操作系统作用向下封装硬件,向上提供接口2. 目录结构1)和windows区别windows以盘符管理linux以文件夹(目录)管理2)相同点切换到某个目录下,都是以树状方式管理3) 常用目录结构/: 根目录,所有目录从这里开始/hom...原创 2019-04-17 21:19:16 · 6625 阅读 · 0 评论 -
python 列表去重(数组)的几种方法
python 列表去重(数组)的几种方法一、方法1list = [1,2,3,3,4,2,3,4,5,6,7,8,8]news_list = []for id in list:if id not in newslist: # 当id不在news_list中就添加,在就不添加,达到去重的目的news_list.append(id)print (news_list)思路看起来比较清晰简...原创 2018-10-13 21:09:47 · 14404 阅读 · 0 评论